当前位置: 首页 > news >正文

DDPG 算法直觉 (without code)

DDPG 算法直觉

DDPG 是一种面向连续动作空间的 off-policy Actor-Critic 算法,它将确定性策略梯度与 DQN 的经验回放、目标网络等稳定训练机制结合,使智能体能够直接学习连续控制任务中的动作策略。

DDPG 算法类型

off-policy

DDPG 的 Actor 是确定性策略 \(μ(s)\),实际训练中采样时需要添加噪声 \(a_t=μ(s_t∣θ^μ)+N_t\);而学习/优化的目标策略则是 \(μ(s)\)。产生数据的策略和被优化的目标策略不同,所以 DDPG 是 off-policy

deterministic policy

DDPG 直接学“在这个状态下应该输出什么动作”,Actor 直接输出一个具体动作 \(a=μ(s∣θ^μ)\)。理论基础来自 Silver et al. 2014 的 Deterministic Policy Gradient

算法直觉

DDPG基于 AC 框架维护四个网络,一组 online network 与 一组 target network:

DDPG四个网络

Actor 负责解决连续动作选择,Critic 负责价值评估;target Actor + target Critic 负责提供稳定的 TD target。

原因:如果都用当前 online 网络,target 会随着 Actor 和 Critic 每次更新一起剧烈变化,训练容易震荡或发散。

1. 收集 replay buffer

在线 Actor 网络通过环境状态直接输出基于确定性策略的动作,添加噪声以保证探索:

\[ a_t=μ(s_t∣θ^μ)+N_t \]

环境执行动作,收集 \(r_t, s_{t+1}\),把 transition 存入 replay buffer:

\[(s_t,a_t,r_t,s_{t+1}) \]

2. 从 buffer 中采样 batch

3. 构造 TD target

DDPG目标网络

基于每一条 transition,Target Actor 负责计算出下一个动作(不需要探索):

\[ a'_{i+1}=μ'(s_{i+1}) \]

通过 Target Critic 评估下一步状态:

\[Q'(s_{i+1},a'_{i+1}) \]

基于 Bellman 方程计算 target (Advantage):

\[y_i =r_i + Q'(s_{i+1},a'_{i+1}) \]

4. 优化

在线网络 (梯度更新)

Actor 输出:

\[a=μ(s∣θ_μ) \]

Critic 评价这个动作:

\[Q(s,μ(s)) \]

Online Critic 优化目标是接近 \(y_i\),基于以上得到的 target,进行 MSE 优化:

\[L=(Q(s,a)−y)^2 \]

Critic 的更新就是普通的均方误差反向传播:

\[θ^Q←θ^Q−α∇_{θQ}L \]

Online Actor 优化目标是输出的动作,使 Critic 给出的 Q 值尽量大:

\[J(θ^μ)=E_s[Q(s,μ(s∣θ^μ))] \]

实际训练中通常写成最小化 loss:

\[L_{actor}=−1/N∑Q(s_i,μ(s_i)) \]

目标网络 (soft update)

主网络负责快速学习,target network 负责提供相对稳定的学习目标。target critic 和 target actor 不参与梯度更新,只从主网络慢慢复制:

\[θ^{Q'}←τθ^{Q'}+(1−τ)θ^{Q'} \]

\[θ^{μ'}←τθ^{μ'}+(1−τ)θ^{μ'} \]

其中 \(\tau\)很小,比如 0.001。


算法流程图(图源chatgpt)

DDPG流程


引用

  1. Lillicrap, T.P., Hunt, J.J., Pritzel, A., Heess, N., Erez, T., Tassa, Y., Silver, D. and Wierstra, D. (2016) ‘Continuous control with deep reinforcement learning’, International Conference on Learning Representations (ICLR). Available at: arXiv:1509.02971.
http://www.jsqmd.com/news/1045581/

相关文章:

  • 2026湛江漏水检测维修精选优质服务商TOP5推荐!卫生间漏水/厨房漏水/屋顶天花板漏水/阳台漏水/地下室漏水防水补漏检测维修-正规防水补漏公司优选口碑榜测评推荐 - 即刻修防水
  • 简单理解:霍尔传感器 VS 编码器
  • 如何永久保存微信聊天记录:5分钟掌握数据留痕终极方案
  • 2026年当下,陕西企业如何精准联系优质夹胶玻璃品牌服务商? - 品牌鉴赏官2026
  • 2026盐城2026正规漏水检测维修公司精选口碑榜TOP5权威推荐-精准定位检测漏水点-专业防水补漏堵漏维修、卫生间/厨房/屋顶/天沟/地下室/阳台防水漏水检测维修 - 安佳防水
  • MC68F375总线异常处理:BERR、HALT与重试机制深度解析
  • Python开发项目部署:从本地到云端的完整流程
  • 性能测试脚本编写实战:从录制回放到精准压测的进阶指南
  • 2026 上海空调维修避坑指南 + 官方参考收费标准 - 星际AI
  • Git 从入门到实战——开发必备的版本控制技能
  • 2026年更新:两江新区全英文幼稚园新址揭晓,开启沉浸式双语教育新篇章 - 品牌鉴赏官2026
  • 深入解析MCU时钟与复位系统:PLL、看门狗与低功耗模式实战
  • Educational Codeforces Round 158 (Rated for Div. 2)D
  • 影刀RPA异常处理实战:Try-Catch正确用法
  • 麦克纳姆轮运动学模型:从原理到代码实现全向移动机器人底盘控制
  • Taurus性能测试平台:超越JMeter的自动化编排与CI/CD集成实践
  • 终极流媒体解析指南:猫抓cat-catch如何轻松突破MPD/DASH格式壁垒
  • 第四周总结
  • 2026年中河北地区民政救灾帐篷实力厂家深度解析与推荐 - 品牌鉴赏官2026
  • P值、置信度与统计决策:如何避免显著性检验的常见陷阱
  • 2026百色2026正规漏水检测维修公司精选口碑榜TOP5权威推荐-精准定位检测漏水点-专业防水补漏堵漏维修、卫生间/厨房/屋顶/天沟/地下室/阳台防水漏水检测维修 - 安佳防水
  • 一梦入盛唐,一醉下江南:淘宝直播×汾酒「汾享江南游园会」圆满收官
  • 青岛十家猫犬舍实测:3000㎡合规基地领跑,伴西西成养宠优选​ - 同城宠物优选基地
  • 深入解析MC68HC908AS32A的SCI模块:从异步通信原理到寄存器实战配置
  • 2026青岛城阳区专业的空调移机公司口碑推荐 - 品牌排行榜
  • 服务品质维度|2026北京陪诊机构服务体验TOP4 精细化口碑深度排行 - 深鉴新闻
  • Mi-Create终极指南:如何免费为小米穿戴设备打造个性化表盘
  • 你的微信聊天记录,正在悄悄消失吗?用这个工具永久保存珍贵记忆
  • 如何快速掌握R3nzSkin国服特供版:3个简单步骤实现英雄联盟免费换肤
  • AJ-Captcha终极指南:5分钟快速集成行为验证码,保护你的应用安全