当前位置：首页 > news >正文

LQR在线自适应控制器代码集：含SLS/OFU策略实现、后悔值追踪与鲁棒性对比

news 2026/6/7 9:50:44

本文还有配套的精品资源，点击获取

简介：一套开箱即用的LQR自适应控制实验代码，专为模型未知或时变场景设计，支持控制器在运行中持续学习并更新策略。内置SLS系统级合成、OFU乐观激励、名义模型控制和已知最优基准四种核心算法，全部封装在独立模块（sls.py、ofu.py、adaptive.py、nominal.py、optimal.py）中，便于替换与组合验证。通过regret_comparison.ipynb可一键绘制不同策略在相同随机系统下的累积后悔曲线、状态响应轨迹及控制输入对比图；utils.py和ts.py统一提供系统仿真、性能评估（如LQR代价、稳定性裕度）、参数扰动生成等基础工具；test_*.py覆盖关键模块单元测试，examples.py给出从初始化、数据采集到策略切换的完整调用链。所有代码基于Python 3，依赖numpy、scipy、cvxpy（用于SLS求解），兼容Jupyter环境，无需额外配置即可复现arXiv:1805.09388中的主要实验图表与结论。

1. 项目概述：这不是一套“玩具代码”，而是一套能跑通真实控制闭环的自适应LQR实验平台

我第一次在arXiv上看到那篇编号为1805.09388的论文时，正被一个工业级伺服系统模型失配问题卡了整整三周——现场实测的惯量、阻尼和耦合系数，和出厂标称值偏差超过27%，用传统LQR设计出来的控制器一上电就振荡。当时我就想：如果有一套代码，不是只画几条后悔值曲线应付审稿人，而是真能在我笔记本上跑起来、接上仿真环境、实时更新增益、还能对比不同策略在同一个扰动序列下的表现，那该多好。后来我花了两个月时间，把论文里那些被省略的实现细节、被轻描淡写的数值陷阱、还有CVXPY求解器在小规模系统里反复失败的边界条件，全部补全、验证、封装，就成了你现在看到的这个代码集。

它不是教学演示，也不是算法草图。关键词里的LQR自适应，指的是控制器在每个采样时刻都基于最新观测数据重新估计系统动态，并据此在线合成新的反馈增益；SLS控制不是简单调用一个黑盒函数，而是完整实现了系统级参数化（System Level Synthesis）框架下的约束优化建模与求解流程；OFU策略的“乐观”二字，体现在它如何构造置信椭球、如何在可行集中选取使短期代价最小但长期探索收益最大的策略点；后悔值分析是贯穿始终的度量语言，不是事后算个总和，而是每一步都记录“如果此刻已知真实系统，最优策略会给出什么代价”，再与当前策略实际代价做差，累加形成动态演化曲线；而鲁棒控制在这里不是指H∞或μ综合那种离线设计，而是指当系统存在有界不确定性（比如A矩阵扰动范数≤δ）时，不同策略对δ变化的敏感程度——这直接决定了它能不能从实验室走向产线。

这套代码面向三类人：一是控制理论方向的研究生，你想复现论文结果、调试算法细节、理解SLS为何比传统辨识+设计更稳定；二是自动化工程师，你手头有个参数漂移的电机驱动器或无人机姿态环，需要快速验证哪种自适应策略响应更快、超调更小；三是算法研究员，你想把OFU框架迁移到非线性系统，或者把SLS的约束结构换成稀疏性先验。它不假设你精通凸优化，但要求你理解状态空间模型的基本形式；它不提供GUI界面，但每个notebook都像一份带执行痕迹的实验笔记；它没有隐藏任何“魔法数字”，所有随机种子、扰动幅度、学习率衰减系数，都在examples.py里明明白白写成变量，改一行就能看到效果差异。

2. 整体架构与设计逻辑：为什么选择模块化封装而非单文件脚本？

2.1 四层解耦架构：从数学原理到工程落地的逐层映射

这套代码最核心的设计决策，是严格遵循“原理-策略-工具-验证”四层解耦。这不是为了炫技，而是因为我在调试SLS求解失败时发现：当cvxpy.SolverError抛出时，你根本分不清是系统本身不可控（A矩阵特征值全在单位圆外），还是约束设置过严（比如硬性要求闭环谱半径<0.95），抑或是数值精度问题（cvxpy默认使用双精度，但某些病态系统需要更高精度）。如果所有逻辑挤在一个脚本里，debug成本会指数级上升。于是我们把它拆成四个物理隔离层：

原理层（optimal.py, nominal.py）：只包含纯数学定义。OptimalLQR类不依赖任何外部库，仅接收(A,B,Q,R)元组，返回解析解K = (R + B^T P B)^{-1} B^T P A，其中P由离散代数Riccati方程迭代求解；NominalLQR则强制使用用户传入的“名义模型”而非真实系统，模拟工程师凭经验猜测模型后的控制效果。这两者不涉及任何在线学习，是衡量其他策略性能的绝对基准。
策略层（sls.py, ofu.py, adaptive.py）：这是算法心脏。SLSController不直接输出K，而是维护一个系统级参数Φ_x, Φ_u（对应论文中的Φ_xx, Φ_ux），通过CVXPY求解一个带LMI约束的凸优化问题，目标是最小化H2范数意义下的闭环性能指标；OFUController则构建一个随时间收缩的置信集C_t = { (A,B) : ||[A;B] - [Â_t;B̂_t]||_F ≤ β_t }，其中β_t由矩阵维度、置信水平δ、历史数据协方差决定，然后在C_t内求解一个“最乐观”的(Ã,B̃)，使得其对应的LQR代价最小；AdaptiveLQR是调度中枢，它不实现具体策略，而是根据预设规则（如后悔值增长速率）在SLS、OFU、Nominal之间切换，并记录每次切换的时间戳与原因。
工具层（utils.py, ts.py）：这是让理论落地的“胶水”。simulate_system函数支持三种仿真模式：精确离散化（对线性系统用矩阵指数expm(AΔt)）、零阶保持（ZOH）近似、以及带测量噪声的Euler-Maruyama数值积分；compute_regret不是简单累加，而是同步运行两个并行仿真：一个是当前策略的真实闭环，另一个是用当前时刻估计模型计算出的“伪最优”闭环，二者初始状态完全一致，每步代价差即为瞬时后悔；generate_perturbed_system可按指定范数扰动A/B矩阵，支持Frobenius范数、谱范数、甚至结构化扰动（如只扰动A的(1,2)元素模拟耦合误差）。
验证层（test_*.py, regret_comparison.ipynb）：单元测试不是摆设。test_sls.py会构造一个已知可控可观的2维系统，验证当扰动δ→0时，SLS求解出的Φ_x是否收敛到真实系统对应的Φ_x；test_ofu.py则用蒙特卡洛方法生成1000次独立扰动序列，检验β_t的置信区间覆盖率是否接近理论值1-δ；而notebook则是最终验收报告，它加载同一组随机种子生成的系统、同一组扰动序列、同一组初始状态，让四种策略在同一张图上PK——不是比谁最终后悔小，而是看谁在第50步、第200步、第1000步的瞬时性能更稳。

这种分层不是教条主义。比如你在adaptive.py里看到switching_rule函数，它内部调用的是utils.compute_regret_rate()，而不是自己重算后悔值——这就是工具层的价值：避免重复计算，保证所有策略看到的“性能信号”来自同一套度量标准。

2.2 模块间依赖关系与数据流设计

模块间的依赖不是网状，而是清晰的单向流：策略层 → 工具层 → 原理层，验证层则反向调用所有层。这种设计杜绝了循环依赖，也便于替换。举个实际例子：如果你想把SLS的CVXPY求解器换成SCS（更适合大规模稀疏问题），只需修改sls.py中_solve_sls_optimization函数内部的求解器调用，其他所有模块完全不受影响。再比如，你发现ts.py里的euler_maruyama积分器在高频采样下不稳定，想换成4阶龙格-库塔，只要保证新函数签名与原函数一致（输入t, x, u, params，输出dx/dt），整个系统无需改动。

数据流设计上，我们坚持“状态显式传递”原则。所有控制器类的update方法都接收(x_t, u_{t-1}, y_t)三元组（当前状态、上一控制输入、当前观测输出），返回(u_t, internal_state)。internal_state是一个字典，包含所有需要跨时间步保存的中间变量，比如OFU的协方差矩阵Σ_t、SLS的当前Φ参数、Nominal的固定K矩阵。这样做的好处是：你可以随时暂停控制器，保存internal_state到磁盘，下次加载后继续运行，而不会丢失学习进度。相比之下，很多开源实现把状态存在类属性里，一旦对象销毁，学习过程就归零——这对长时间运行的硬件实验是灾难性的。

提示：在examples.py的run_full_experiment函数里，我们特意展示了如何用pickle序列化controller.internal_state。实测下来，一个10维系统的SLS控制器状态约占用1.2MB内存，OFU的状态则随历史数据线性增长，所以我们在ofu.py里内置了滑动窗口机制，默认只保留最近500步的数据用于协方差更新，这个窗口大小可通过max_history_len参数调整。

2.3 鲁棒性对比的底层实现逻辑：不是画几条曲线，而是量化“容错带宽”

很多人误解“鲁棒性对比”就是把不同策略在同一个扰动下跑一遍，看谁后悔小。但这忽略了关键一点：扰动的“强度”本身是相对的。一个在δ=0.1扰动下表现良好的策略，可能在δ=0.15时彻底崩溃。真正的鲁棒性，是策略性能随扰动强度变化的平缓程度。

因此，在regret_comparison.ipynb里，我们做了三件事：
1.扰动强度扫描：固定系统维度n=4，生成10个不同δ值（从0.01到0.3，对数间隔），对每个δ，生成5个独立扰动实例；
2.性能曲面拟合：对每个策略，计算其在10×5=50个实验点上的平均最终后悔值，然后用三次样条插值拟合出后悔值R(δ)曲线；
3.鲁棒性指标量化：定义“鲁棒带宽”RB = max{δ | R(δ) ≤ 2 × R(0.01)}，即性能劣化不超过2倍的最大扰动容忍度；再定义“敏感度”S = dR/dδ |_{δ=0.1}，反映在典型工作点附近的恶化速率。

这个设计源于一次真实踩坑：早期版本只对比δ=0.1的结果，发现OFU比SLS后悔小15%。但当我们把δ扫到0.25时，OFU的后悔值突然飙升300%，而SLS仅增加40%。原来OFU的置信椭球在强扰动下变得极扁，导致“乐观”选择实质上是在不可行区域边缘试探。这个发现直接促使我们在ofu.py里增加了confidence_shrinkage_factor参数，允许用户在高扰动场景下主动收缩置信集，牺牲一点探索性换取稳定性。

3. 核心算法模块深度解析：SLS与OFU的实现细节与数值陷阱

3.1 SLS系统级合成：从理论公式到CVXPY可解模型的跨越

SLS的核心思想是：不直接设计状态反馈增益K，而是设计一个闭环系统脉冲响应Φ = [Φ_x, Φ_u]，它满足约束Φ_x = Z^{-1} A Φ_x + Z^{-1} B Φ_u + I（Z是移位算子），且闭环性能可表示为线性矩阵不等式（LMI）。论文里这个转换很优雅，但落到代码里全是坑。

首先看sls.py里的_build_sls_constraints函数。它接收当前估计的Â, B̂，然后构建一个块矩阵约束：

[ I - Z^{-1}Â -Z^{-1}B̂ ] [Φ_x] = [I] [ 0 I ] [Φ_u] [0]

这里Z^{-1}不是简单的矩阵求逆，而是代表一个时序移位操作。在离散时间有限时域T内，我们用一个T×T的下移位矩阵Z_inv来实现：Z_inv[i,j] = 1 if j == i+1 else 0。所以_build_sls_constraints实际构建的是一个(Tn)×(T(n+m))的大稀疏矩阵，其中n是状态维数，m是输入维数。如果你直接用np.eye构造，内存会爆炸——一个T=50, n=6, m=2的系统，Z_inv矩阵就有(300)×(312)=93600个元素，而实际非零元只有300个。因此我们在ts.py里专门写了sparse_shift_matrix函数，用scipy.sparse.csr_matrix存储，内存占用从700KB降到3KB。

更大的陷阱在目标函数。论文目标是最小化||Φ||{H2}，即∑{k=0}^{T-1} trace(Φ_k^T Φ_k)。但在CVXPY里，cp.norm不支持对稀疏矩阵切片求范数。我们的解决方案是：预计算所有Φ_k对应的索引映射表，然后用cp.sum_squares对每个Φ_k的向量化形式求平方和。具体来说，Φ_x是一个T×n×n的张量，我们将其reshape为(Tn²,)向量，再用cp.norm作用于该向量。这看起来绕，但实测下来比循环调用cp.norm快8倍，且内存连续性更好。

注意：CVXPY默认使用ECOS求解器，但它对大型LMI问题支持不佳。我们在requirements.txt里强制指定cvxpy>=1.4.0，并在sls.py的_solve_sls_optimization中设置了solver='SCS'作为fallback。SCS是半定规划专用求解器，对稀疏问题效率极高，但需要额外安装pip install scs。我们在README.md里用醒目的警告框说明了这点，避免新手卡在求解器报错上。

3.2 OFU乐观激励：置信椭球的构造、收缩与“乐观”点的几何选取

OFU的精髓在于“乐观”二字。它不是盲目相信估计值，也不是悲观地取最坏情况，而是在一个数学上可信的范围内，找那个能让当前LQR代价看起来最好的(A,B)组合。

置信椭球C_t的构造公式是：C_t = { (A,B) | ||[A;B] - [Â_t;B̂t]||{Σ_t^{-1}} ≤ β_t }，其中||·||{Σ^{-1}}是马氏距离，Σ_t是历史数据协方差矩阵。ofu.py里的_update_confidence_set函数负责更新Σ_t和β_t。Σ_t的更新很简单：Σ_t = λI + ∑{s=1}^{t-1} φ_s φ_s^T，其中φ_s = [x_s; u_s]是第s步的特征向量，λ是正则化系数（默认0.1）。但β_t的计算就复杂了——它必须保证P((A,B) ∈ C_t) ≥ 1-δ，其中δ是置信水平（默认0.05）。

论文给出的β_t = O(√(log(1/δ)))，但常数因子被省略了。我们根据Abbasi-Yadkori 2011年的推导，实现了精确的β_t = √(2 log(det(Σ_t)^{1/2} / (δ det(λI)^{1/2})) ) + √(λ) * ||[A_;B_]||F。注意最后一项需要真实系统参数，这显然不可知。所以我们在examples.py里提供了两种模式：true_beta（用于仿真验证，此时我们知道A,B_）和estimated_beta（实际部署模式，用当前估计值替代真实值，引入保守性）。

“乐观”点的选取是另一个难点。理论上，我们需要解一个双层优化：外层在C_t内选(Ã,B̃)，内层对每个(Ã,B̃)求解其对应的LQR增益K̃。但内层求解本身是非凸的（Riccati方程）。我们的工程妥协是：对C_t进行随机采样（默认1000个点），对每个采样点快速计算其LQR代价（用optimal.py里的compute_lqr_cost，它不返回K，只返回标量代价），然后取代价最小的那个点。虽然不是全局最优，但实测在n≤8时，1000次采样的最优解与网格搜索结果误差<0.3%，且耗时仅为后者的1/200。

实操心得：在regret_comparison.ipynb里，我们添加了一个交互式滑块，可以动态调整OFU的采样点数量。你会发现，当采样数从100增加到1000时，后悔曲线几乎不变；但从1000到5000，曲线反而变差——因为过多采样引入了更多“虚假乐观”点，它们在当前时刻代价低，但会导致后续状态进入危险区域。这印证了一个经验：OFU的探索不是越多越好，而是要与系统动态匹配。

3.3 自适应调度器adaptive.py：后悔值驱动的策略切换逻辑

AdaptiveLQR不是第四种策略，而是策略的“指挥官”。它的核心是_decide_next_strategy函数，它基于三个信号做决策：

瞬时后悔率：r_t = (R_t - R_{t-1}) / (J_t - J_{t-1})，其中R_t是累积后悔，J_t是当前策略的实际LQR代价。如果r_t > threshold（默认0.8），说明当前策略正在快速失效，需切换；
后悔值趋势：用滑动窗口（默认50步）内的线性回归斜率判断。如果斜率为正且显著（p<0.01），表明后悔在加速增长；
策略健康度：对SLS，检查CVXPY求解是否成功、Φ参数是否满足稳定性约束（ρ(Â + B̂K) < 0.99）；对OFU，检查置信椭球体积是否膨胀过快（det(Σ_t) / det(Σ_{t-1}) > 1.5）。

决策逻辑是优先级队列：先检查健康度，若任一策略健康度告警，则立即切换到最健康的备选；否则看后悔率，若超标则切换到历史表现最好的策略；最后看趋势，若持续恶化则启用Nominal作为安全兜底。

这个设计源于一次硬件实验教训：某次在无人机姿态环上跑OFU，前200步后悔平稳下降，但第201步突然飙升——事后分析发现，传感器噪声导致一次错误的状态观测，OFU据此构造了一个极度扁平的置信椭球，选中的“乐观”点实际是系统不稳定点。如果没有健康度检查，控制器会持续在不稳定点附近震荡。现在，只要检测到Φ参数的谱半径>0.99，adaptive.py会立刻触发切换，并在日志里记录SWITCH_REASON: STABILITY_VIOLATION。

4. 实操全流程与关键配置：从零开始复现论文图表的完整链路

4.1 环境搭建与依赖验证：避开CVXPY版本陷阱

第一步永远是环境。requirements.txt里明确列出：

numpy>=1.21.0 scipy>=1.7.0 cvxpy>=1.4.0 matplotlib>=3.5.0 jupyter>=1.0.0

但这里有个深坑：CVXPY 1.3.x版本对Python 3.11支持不全，而Ubuntu 22.04默认Python版本是3.10。如果你用conda create -n lqr python=3.11，再pip install -r requirements.txt，大概率会在import cvxpy时报ImportError: cannot import name 'SCS' from 'cvxpy.reductions.solvers.scs_conif'。解决方案是：先创建Python 3.10环境，再安装。我们在README.md的Troubleshooting章节里用加粗字体强调了这点。

验证环境是否正确，运行python -c "import cvxpy as cp; print(cp.installed_solvers())"。你应该看到['ECOS', 'SCS']。如果只有['ECOS']，说明SCS没装成功，需要pip install scs。注意：SCS安装可能需要编译，Linux用户确保已安装build-essential，Mac用户确保xcode-select --install已执行。

提示：在notebooks/regret_comparison.ipynb开头，我们插入了一段自检代码，它会自动检测CVXPY版本、可用求解器、以及Numpy的BLAS后端（推荐OpenBLAS，比默认的Reference BLAS快3倍）。如果检测失败，会弹出红色警告框并停止执行，避免用户在错误环境下浪费数小时等待结果。

4.2 运行核心notebook：regret_comparison.ipynb的逐单元解析

这个notebook是整个项目的“仪表盘”。我们按单元格顺序拆解其不可跳过的要点：

Cell 1：系统初始化

from examples import generate_random_system A_true, B_true, Q, R = generate_random_system( n=4, m=2, condition_number=5.0, # 控制矩阵病态程度 spectral_radius=0.98 # 真实系统开环谱半径 )

condition_number参数至关重要。它控制A矩阵的奇异值分布。当设为5.0时，最大/最小奇异值比为5；若设为50，则系统对辨识误差极度敏感。论文图3的对比实验，正是在condition_number=20下完成的。我们建议新手先用5.0跑通，再逐步加大难度。

Cell 3：策略实例化

from sls import SLSController from ofu import OFUController from nominal import NominalLQR from optimal import OptimalLQR controllers = { 'SLS': SLSController(A_hat=A_true, B_hat=B_true, Q=Q, R=R, T=30), 'OFU': OFUController(A_hat=A_true, B_hat=B_true, Q=Q, R=R, delta=0.05), 'Nominal': NominalLQR(A_nominal=A_true, B_nominal=B_true, Q=Q, R=R), 'Optimal': OptimalLQR(A=A_true, B=B_true, Q=Q, R=R) }

注意SLSController的T=30参数。它不是预测时域，而是SLS优化问题的截断长度。T太小（如10），无法捕捉长时序动态；T太大（如100），求解时间呈立方增长。我们通过大量测试发现，对n≤6的系统，T=30是精度与速度的最佳平衡点。

Cell 5：仿真主循环

from utils import simulate_system, compute_regret results = {} for name, ctrl in controllers.items(): x_traj, u_traj, regret_traj = simulate_system( A=A_true, B=B_true, controller=ctrl, T_sim=2000, # 总仿真步数 x0=np.random.randn(n), # 随机初始状态 noise_std=0.01 # 过程噪声标准差 ) results[name] = {'x': x_traj, 'u': u_traj, 'regret': regret_traj}

noise_std=0.01是关键扰动源。它模拟了真实传感器的测量噪声。如果设为0，OFU的后悔值会异常低——因为没有噪声，辨识精度无限高，“乐观”就失去了意义。论文所有结果都是在noise_std=0.01下得到的。

Cell 7：可视化
这里生成三张核心图：
-图1：累积后悔曲线：横轴是时间t，纵轴是R_t。四条曲线应呈现SLS最平缓、OFU前期下降快但后期上翘、Nominal稳定在高位、Optimal为直线y=0。
-图2：状态轨迹对比：取x_traj[:, 0]（第一个状态维度），四条线应显示SLS收敛最快，OFU有轻微振荡，Nominal超调最大。
-图3：控制输入能量：计算∑|u_t|^2，SLS通常能耗最低，因为它直接优化H2范数。

运行完这个notebook，你将得到与论文Figure 2、3、4几乎一致的图表。差异仅在于随机种子——我们把种子固定在examples.py的SEED = 42，确保完全可复现。

4.3 单元测试执行指南：不只是“绿条”，更是算法正确性证明

pytest是我们的测试引擎。运行pytest test_*.py -v会执行所有测试。但重点不是看是否全绿，而是理解每个测试在验证什么：

test_sls.py::test_sls_stability：构造一个已知稳定的系统（A=[0.5,0;0,0.5], B=[1;1]），验证SLS求解出的Φ_x是否满足ρ(Â + B̂K) < 0.99。如果失败，说明你的CVXPY求解器没找到可行解，或约束设置过严。
test_ofu.py::test_confidence_coverage：生成1000次独立扰动，统计真实(A,B)落入C_t的频率。理论上应≥95%。如果只有90%，说明β_t计算过于乐观，需检查_compute_beta_t里的对数项是否漏了det(λI)项。
test_utils.py::test_regret_computation：用一个2维解析可解系统，手动计算前5步的瞬时后悔，与compute_regret输出比对。误差必须<1e-10，否则说明你的“伪最优”闭环仿真有bug。

这些测试不是一次性的。当你修改sls.py里的约束矩阵构建逻辑时，务必先跑pytest test_sls.py，确保稳定性验证仍通过。这是防止“改一处，崩全局”的最后一道防线。

5. 常见问题与实战排障：那些论文里绝不会写的坑

5.1 “CVXPY SolverError: Problem status UNKNOWN” —— 最高频报错的根因与解法

这个报错出现频率高达73%（基于GitHub Issues统计）。它不是代码bug，而是数值问题。根本原因有三个：

系统不可控/不可观：generate_random_system默认生成可控系统，但如果你手动传入A,B，需先验证np.linalg.matrix_rank(controllability_matrix(A,B)) == n。我们在utils.py里提供了is_controllable函数，建议在初始化控制器前调用。
约束过严：SLS默认要求闭环谱半径<0.99，但某些病态系统即使最优LQR也无法满足。解决方案是降低要求：SLSController(..., stability_radius=0.995)。
数值缩放失衡：当A矩阵元素在1e-3量级，而Q矩阵在1e6量级时，CVXPY的条件数会爆炸。我们的修复方案是在sls.py的_build_sls_constraints前，自动对A,B,Q,R做归一化：A_norm = A / np.max(np.abs(A))，求解后再反变换。这个功能默认开启，可通过normalize_system=True参数关闭。

排障技巧：当遇到此报错，立即在报错位置上方插入print("Condition number of A:", np.linalg.cond(A))。如果>1e8，基本可以确定是缩放问题，启用归一化即可解决。

5.2 “OFU后悔值突然飙升” —— 传感器噪声与置信椭球的隐秘博弈

这是硬件部署时最头疼的问题。现象是：仿真中OFU后悔平稳下降，但接入真实传感器后，第150步左右后悔值跳变一个数量级。

根因分析：真实传感器噪声不是高斯白噪声，而是带有低频漂移（bias drift）和脉冲干扰（spike noise）。OFU的协方差矩阵Σ_t会把这些异常点当作有效信息吸收，导致置信椭球严重扭曲。

解决方案有三层：
-前端滤波：在examples.py的run_full_experiment里，我们预留了preprocess_observation钩子函数。你可以在这里插入一个简单的中值滤波：y_t = scipy.signal.medfilt(y_t, kernel_size=3)。
-鲁棒协方差估计：在ofu.py里，我们实现了_robust_update_covariance函数，它用MCD（Minimum Covariance Determinant）算法替代普通协方差，对异常值不敏感。启用方式：OFUController(..., robust_covariance=True)。
-动态置信水平：当检测到连续5步的观测残差||y_t - C x_t||超过阈值，自动将δ从0.05提升到0.1，扩大置信椭球，避免过度自信。

这三层方案在某次AGV导航实验中，将OFU的崩溃概率从68%降至3%，且平均后悔值仅增加7%。

5.3 “SLS求解时间过长” —— 大规模系统的加速实践

当系统维度n>8时，SLS的求解时间会从毫秒级跃升至分钟级。这不是算法缺陷，而是LMI问题本身的复杂度。

我们的加速实践有三点：
1.稀疏性利用：如果A,B矩阵天然稀疏（如分布式系统），在generate_random_system里设置sparse_pattern='chain'，生成链式拓扑，SLS求解器会自动利用稀疏结构。
2.降维近似：在sls.py里，我们提供了low_rank_approximation选项。它对Φ_x做SVD分解，只保留前r个奇异向量（r默认为min(10, n)），将优化变量从O(Tn²)降到O(Trn)。实测在n=12时，求解时间从210秒降至14秒，后悔值增加<5%。
3.Warm-start重用：SLS控制器的update方法支持warm_start=True。这意味着它会用上一次求解的Φ作为本次优化的初始点。在慢时变系统中，这能将迭代次数从50次降至8次。

注意：low_rank_approximation不是万能的。它在强耦合系统中会失效。我们在test_sls.py里专门写了test_low_rank_accuracy，用Frobenius范数量化近似误差。如果误差>0.1，测试会失败并提示“Low-rank approximation not suitable for this system”。

6. 扩展与定制指南：如何把这套代码变成你自己的研究利器

6.1 添加新策略：以“贝叶斯LQR”为例的模块接入规范

想加入自己的策略？不需要改核心架构。只需遵循三步：

Step 1：创建新模块
新建bayesian_lqr.py，定义BayesianLQRController类，必须实现__init__,update,get_action三个方法。update接收(x_t, u_{t-1}, y_t)，get_action接收x_t并返回u_t。

Step 2：工具层适配
在utils.py里添加compute_bayesian_regret函数，逻辑与compute_regret一致，只是内部调用BayesianLQRController的get_action。

Step 3：集成到主流程
在examples.py的run_full_experiment里，把BayesianLQRController加入controllers字典，并在regret_comparison.ipynb的Cell 3里添加相应实例化代码。

我们已在examples.py里预留了# TODO: Add your custom controller here注释，方便你定位。

6.2 修改性能度量：从LQR代价到实际工程指标

compute_regret默认用LQR代价x^T Q x + u^T R u。但你的应用场景可能是电机温升（与∑|u_t|^2正相关）或定位精度（与∑|x_t|^2相关）。

修改方法：在utils.py里，compute_regret函数接受一个cost_fn参数：

def compute_regret(..., cost_fn=None): if cost_fn is None: cost_fn = lambda x, u: x.T @ Q @ x + u.T @ R @ u # 后续计算均用cost_fn(x, u)

然后在regret_comparison.ipynb里，你可以定义：

def motor_heat_cost(x, u): return np.sum(u**2) # 简化模型 results = simulate_system(..., cost_fn=motor_heat_cost)

这样，后悔值就变成了“相对于最优温升控制的额外发热”，更贴合工程实际。

6.3 硬件在环（HIL）部署准备：从仿真到实物的平滑过渡

代码已为HIL部署做好铺垫：
- 所有控制器类的update方法都是纯函数式，无全局状态依赖；
-examples.py里的run_hil_loop函数模板，展示了如何用serial库读取Arduino传感器数据，调用controller.update，再用pwm库输出控制信号；
-utils.py里的real_time_clock类，提供纳秒级时间戳，避免Pythontime.time()的毫秒级抖动。

唯一需要你做的，是编写hardware_interface.py，实现read_sensor()和write_actuator()两个函数。我们提供了针对RS485、CAN总线、USB-TTL的示例代码片段，放在docs/hardware_examples/目录下。

最后分享一个个人体会：这套代码最宝贵的价值，不是它实现了SLS或OFU，而是它把控制理论中那些被省略的“工程缝隙”全部填平了——从数值稳定性到硬件接口，从测试验证到性能度量。我用它调试过直流电机、四旋翼无人机、甚至一个老式液压伺服阀。每一次成功，都不是因为算法多炫酷，而是因为test_sls.py里那个看似多余的稳定性验证，或者ofu.py里那个默默工作的鲁棒协方差估计。真正的鲁棒性，不在数学公式里，而在每一行处理边界条件的代码中。

本文还有配套的精品资源，点击获取

查看全文

http://www.jsqmd.com/news/967350/