2025_NIPS_Certifying Stability of Reinforcement Learning Policies using Generalized Lyapunov Functio
一、文章主要内容总结
该研究聚焦于强化学习(RL)策略下闭环系统的稳定性验证问题,核心是搭建经典控制理论与现代基于学习的方法之间的桥梁。
- 背景与问题:RL方法虽能优化系统长期性能,但缺乏稳定性保证;传统李雅普诺夫(Lyapunov)方法要求函数逐步严格递减,难以适用于学习到的策略,且RL价值函数本身无法直接满足李雅普诺夫稳定性条件。
- 核心思路:
- 从线性二次调节器(LQR)问题入手,发现通过在RL价值函数中加入与系统动力学和阶段成本相关的残差项,可构建李雅普诺夫函数候选;
- 放松传统李雅普诺夫的逐步递减要求,提出广义李雅普诺夫条件,允许函数在有限时间步内暂时上升,仅需满足多步加权平均递减。
- 方法拓展与验证:
- 线性系统场景:通过线性矩阵不等式(LMI)验证广义李雅普诺夫函数的有效性,扩大了可稳定的折扣因子范围;
- 非线性系统场景:将RL价值函数与神经网络残差项结合构建广义李雅普诺夫函数,联合学习状态依赖的多步权重,在Gymnasium和DeepMind Control基准测试中成功验证了PPO、SAC等RL策略的稳定性;
- 联合优化:提出多步李雅普诺夫损失函数,联合训练神经控制器与稳定性证书,相比传统方法获得了更大的认证吸引域内近似。
- 开源实现:提供了代码仓库(https://github
