当前位置: 首页 > news >正文

深度强化学习与控制 课程 第二周 课程总结

一、策略梯度算法

1. 从基于价值到基于策略

传统Q学习学习动作价值函数,而策略梯度直接学习参数化策略 πθ(a∣s),目标函数为期望回报:

通过梯度上升最大化目标函数。策略梯度定理给出:

2. REINFORCE算法

使用蒙特卡洛方法估计 Q(s,a),梯度为:

流程:采样轨迹 → 计算每个时刻的回报 ψt → 更新参数 θ=θ+α∑tψt∇θlog⁡πθ(at∣st)

二、Actor-Critic框架

1. 核心思想

用可训练的价值网络(Critic)替代蒙特卡洛估计,降低方差。策略梯度的一般形式:

其中 ψt可以是TD残差 rt+γV(st+1)−V(st)或优势函数 A(s,a)=Q(s,a)−V(s)。

2. A2C算法

  • Actor更新:θ←θ+αθ∑δt∇θlog⁡πθ(at∣st)

  • Critic更新:损失函数,梯度下降更新

3. A3C(异步A2C)

使用多线程并行采样,梯度异步更新,大幅提升训练效率。

三、确定性策略梯度(DPG)与DDPG

1. 确定性策略

随机策略:a∼πθ(⋅∣s)
确定性策略:a=μθ(s)(连续动作空间可微)

确定性策略梯度定理:

2. DDPG算法

解决DPG+神经网络不稳定的问题,采用:

  • 经验回放(off-policy)

  • 目标网络(软更新 ττ)

  • 批标准化

  • 动作噪声探索

更新流程:

  • Critic最小化 L=1/N∑(yi−Qω(si,ai))2,其中

  • Actor通过链式法则更新


四、SAC算法(Soft Actor-Critic)

1. 最大熵强化学习

目标函数加入熵正则项,鼓励探索:

Soft贝尔曼方程:

2. SAC核心技巧

  • 使用两个Q网络(取min缓解过高估计)

  • 重参数化技巧使采样可导:at=fθ(ϵt;st)at​=fθ​(ϵt​;st​)

  • 自动调整熵正则系数 αα,损失函数

3. 算法流程

初始化Q网络、策略网络、目标网络、经验池 → 每个时间步采样动作交互 → 存储 → 从回放池采样 → 计算目标y → 更新Critic → 重参数化更新Actor → 更新αα → 软更新目标网络


五、基于模型的控制

1. 模型预测控制(MPC)

无显式策略,每步生成候选动作序列,推演未来 HH 步,选最优序列的第一个动作执行。

打靶法

  • 随机打靶:随机采样动作序列

  • 交叉熵方法(CEM):维护分布,保留最优M条序列更新分布,迭代优化

2. PETS算法

概率集成与轨迹采样。环境模型输出高斯分布,损失函数为负对数似然:

  • 第一项:马氏距离(加权预测误差)

  • 第二项:协方差正则,防止方差坍缩

集成多个模型(不同初始化+不同数据)捕捉认知不确定性,MPC时随机选模型预测。

3. MBPO算法(基于模型的策略优化)

关键观察:模型推演步数过长累积误差大。解决方案:分支推演——从真实采样状态开始,用模型推演短步数(k步),生成数据用于训练策略。无模型部分使用SAC。


六、DRL控制应用案例

案例一:无人机自主导航与避障

  • 状态:自身状态(位置/速度/姿态)+ 传感器(雷达/视觉)

  • 动作:连续三维加速度或角速度

  • 奖励:距离目标负惩罚(−d−d)、碰撞惩罚(-100)、能耗惩罚(−∥a∥2×0.01−∥a∥2×0.01)、成功奖励(+500)

  • 算法:PPO(稳定、样本效率高)或SAC(平滑、鲁棒)

案例二:机械臂轨迹跟踪

  • 动力学

  • 任务:末端执行器精确跟踪“8”字等轨迹

  • 奖励:跟踪误差惩罚+ 控制平滑惩罚

  • 结果:SAC跟踪精度达微米级,抗扰动能力远超PID

http://www.jsqmd.com/news/880557/

相关文章:

  • Go语言内存泄漏:pprof与监控
  • 苍穹外卖day4
  • 3D光学流技术在机器人动作生成中的应用与优化
  • 深度学习落地经验:从情感分析业务中学到的5个关键教训
  • SVN SSL证书验证失败的根源与四关卡排障法
  • 事业单位教育类考试人名考点速记笔记
  • 从集合运算到代码:一文搞懂Jaccard系数,附Python/NumPy/Pandas三种实现方法对比
  • Java基础总结(快速入门版)
  • 从黑猩猩内战到人类关系:互动是系统的命脉,遗忘是文明的暗礁
  • 8051 XDATA分页配置与内存管理实战
  • Nsight System和Compute命令行
  • 小学期第二周学习笔记
  • BP算法(反向传播)初步学习
  • SLAM技术路线已收敛?多模态融合如何重启路线之争
  • 安全合规:满足行业安全标准和法规要求
  • 从冶金实验到数据科学:如何用图像特征量化‘看不见’的熔融结晶过程?
  • 【AI问答/前端】现代前端的满天过海局(二)
  • 机器学习与相图计算协同设计增材制造铝合金:从原理到应用
  • 零基础实战逻辑漏洞挖掘:从注册到注销的6大高频场景
  • JAVA---面向对象的三大特性
  • 从‘看山是山’到‘看山不是山’:手把手教你用Landsat8波段组合玩转地物‘透视’
  • 瑞德克斯在手机端的表现稳不稳?是否适合随时查看行情?
  • 芯片合封是个嘛?
  • 面试被问到“你们项目Redis怎么用的?“——我把这套AOP缓存框架甩给他,面试官直接沉默了
  • 【AI问答/前端】前端瞒天过海局(三)
  • 多无人机协同通信-计算
  • 生化危机2:重制版2026官方正版最新版pc免费下载(看到请立即转存 资源随时失效)手机版通用
  • 基于SpringBoot+WebSocket的实时火灾报警模拟系统毕设
  • Spdlog 进阶:日志基本控制、日志格式控制、异步记录器
  • [SpringBoot 对象存储实战]:预签名 URL 直传 OSS 全流程设计与实现