当前位置: 首页 > news >正文

强化学习中的 On-policy 与 Off-policy 全面解析

本文系统总结强化学习中 On-policy 与 Off-policy 的核心区别、典型算法、底层原理以及现代 RL 中的发展趋势。


1. 什么是 On-policy 与 Off-policy

强化学习中:

Policy(策略)

表示:

状态 → 动作

即:

π(a|s)

而:

On-policy vs Off-policy

最核心的问题是:

采样数据的策略 和 被优化的策略 是不是同一个

2. On-policy 的定义

On-policy:

用当前策略采样的数据 训练当前策略自己

即:

behavior policy == target policy

直观理解

类似:

边走边学

Agent:

  1. 用当前 policy 行动
  2. 收集 trajectory
  3. 用这些 trajectory 更新 policy
  4. 更新后重新采样

特点

特点说明
数据必须最新旧数据很快失效
通常更稳定分布一致
sample efficiency 较低数据利用率低
不适合昂贵采样真实机器人成本高

3. Off-policy 的定义

Off-policy:

可以使用其它策略采样的数据 训练目标策略

即:

behavior policy != target policy

直观理解

类似:

反复复盘历史经验

Agent:

  • 可以学习旧数据
  • 可以学习别人数据
  • 可以离线训练

特点

特点说明
可复用历史数据replay buffer
sample efficiency 高数据利用率高
更复杂容易不稳定
更适合高成本环境robotics / autonomous driving

4. 最核心区别:Replay Buffer

这是理解两者最简单的方法。


4.1 On-policy

通常:

不能长期使用旧数据

原因:

旧数据来自旧 policy

会导致:

distribution mismatch

即:

数据分布不一致

4.2 Off-policy

核心能力:

Replay Buffer

即:

历史数据可以反复训练

例如:

(s,a,r,s')

可存储数百万条经验。


5. 为什么 On-policy 更稳定?

因为:

训练数据 和 当前 policy 分布一致

即:

No Distribution Shift

例如 PPO:

当前 policy:

πθ

采样:

trajectory ~ πθ

训练:

仍然优化 πθ

所以训练更稳定。


6. 为什么 Off-policy 更高效?

因为:

一份数据可以反复学习

例如:

  • DQN
  • SAC

一条 transition:

(s,a,r,s')

可能被训练:

上百次

所以:

sample efficiency 极高

7. 典型 On-policy 算法


7.1 REINFORCE

最早的 Policy Gradient。

特点:

  • Monte Carlo
  • 无 critic
  • episode 结束后更新

更新:

∇θ log π(a|s) * G_t

缺点

  • variance 大
  • sample efficiency 低

7.2 A2C(Advantage Actor-Critic)

经典 Actor-Critic。

结构:

Actor + Critic

Actor

学习:

policy

Critic

学习:

V(s)

特点

  • synchronous
  • on-policy
  • advantage based

7.3 A3C(Asynchronous Advantage Actor-Critic)

A2C 异步版。

特点:

  • 多线程采样
  • CPU 时代经典算法

曾是 DeepMind 代表工作。


7.4 TRPO(Trust Region Policy Optimization)

核心:

限制 policy update 不要变化太大

使用:

KL divergence constraint

优点

  • 理论稳定

缺点

  • 二阶优化复杂
  • 工程实现困难

7.5 PPO(Proximal Policy Optimization)

当前最经典 On-policy RL 算法。

本质:

TRPO 的简化版

核心思想

限制:

policy ratio

不要偏移太大。


PPO 的 clipped objective

clip(r_t(θ),1-ε,1+ε)

避免:

policy collapse

PPO 优点

优点说明
简单易实现
稳定不易崩
强大泛化好

PPO 应用

广泛用于:

  • RLHF
  • Robotics
  • 游戏AI
  • 自动驾驶

8. 典型 Off-policy 算法


8.1 Q-Learning

经典 Off-policy TD Learning。

更新:

Q(s,a) ← r + γ max Q(s',a')

为什么是 Off-policy?

因为:

behavior policy:

ε-greedy

target policy:

greedy max Q

不是同一个。


8.2 DQN(Deep Q-Network)

本质:

Q-learning + Deep Neural Network

两大核心创新


Replay Buffer

作用:

打破数据相关性

Target Network

作用:

稳定训练

8.3 Double DQN

解决:

Q overestimation

问题。


8.4 Dueling DQN

拆分:

V(s) 和 A(s,a)

分别建模。


8.5 DDPG(Deep Deterministic Policy Gradient)

连续动作经典算法。

特点:

  • deterministic policy
  • actor-critic
  • replay buffer

可以理解为:

连续动作版 DQN

8.6 TD3(Twin Delayed DDPG)

DDPG 改进版。

解决:

  • Q overestimation
  • unstable training

核心技巧

技术作用
twin critics降低 overestimate
delayed update稳定训练
target smoothing降低误差

8.7 SAC(Soft Actor-Critic)

当前最主流 Off-policy 算法之一。

核心目标:

reward + entropy maximization

SAC 特点

特点说明
exploration 强entropy regularization
稳定actor-critic
sample efficientreplay buffer

SAC 广泛应用于

  • robotics
  • manipulation
  • locomotion

8.8 CQL(Conservative Q-Learning)

Offline RL 经典算法。

核心:

保守估计 Q value

避免:

OOD action overestimation

9. Actor-Critic 不等于 On-policy

很多人误解:

Actor-Critic = On-policy

实际上:

Actor-Critic 只是:

policy + value

结构。


On-policy Actor-Critic

  • A2C
  • PPO

Off-policy Actor-Critic

  • DDPG
  • TD3
  • SAC

10. PPO 为什么是 On-policy?

虽然 PPO:

会重复使用 trajectory 多个 epoch

但:

这些 trajectory 必须来自当前 policy

不能长期 replay。

所以:

PPO 仍然是 On-policy

11. DQN 为什么是 Off-policy?

因为:

行为策略:

ε-greedy

学习目标:

max_a Q(s,a)

并不是同一个策略。

因此:

DQN 是 Off-policy

12. 从数据利用率理解


On-policy

类似:

现学现卖

采一次学一次。


Off-policy

类似:

刷题复盘

历史经验反复利用。


13. 为什么现代 RL 越来越偏向 Off-policy?

因为:

真实世界采样成本太贵

尤其:

  • 机器人
  • 自动驾驶
  • 大模型 RL

例如机器人

真实机器人采样:

1小时 = 数百美元

不能像 Atari 那样无限采样。

因此:

sample efficiency 极其重要

14. 为什么 RLHF 仍大量使用 PPO?

因为:

稳定性 > sample efficiency

大模型训练中:

  • 数据不是最大问题
  • 稳定训练最重要

因此 PPO 成为:

RLHF 默认方案

15. 现代趋势:On-policy 与 Off-policy 融合

当前很多研究:

希望同时获得: 稳定性 + 高 sample efficiency

典型方向

  • Offline RL
  • Importance Sampling
  • Hybrid RL
  • Model-based RL

16. 最常见算法分类总表

算法On/Off Policy类型动作空间
SARSAOnValue-based离散
Q-LearningOffValue-based离散
DQNOffValue-based离散
REINFORCEOnPolicy Gradient任意
A2COnActor-Critic任意
PPOOnActor-Critic连续常见
DDPGOffActor-Critic连续
TD3OffActor-Critic连续
SACOffActor-Critic连续
CQLOffOffline RL连续

17. 一句话总结


On-policy

现采现学

稳定但数据利用率低。


Off-policy

历史经验反复学习

数据效率高但更复杂。


18. 最终总结

强化学习中:

On-policy 与 Off-policy

本质区别是:

采样策略 和 优化策略 是否一致

On-policy

强调:

稳定

典型:

  • PPO
  • A2C

Off-policy

强调:

数据效率

典型:

  • DQN
  • SAC

现代强化学习的发展方向:

正在不断尝试融合:

On-policy 的稳定性 + Off-policy 的高效率

References

  1. Sutton & Barto — Reinforcement Learning: An Introduction

  2. OpenAI Spinning Up

  3. Lilian Weng RL Overview
    https://lilianweng.github.io/posts/2018-02-19-rl-overview/

  4. PPO Paper
    https://arxiv.org/abs/1707.06347

  5. SAC Paper
    https://arxiv.org/abs/1801.01290

http://www.jsqmd.com/news/807108/

相关文章:

  • 半导体市场预测:拆解增长逻辑、驱动力与供应链博弈
  • Flink:Keyed State vs Operator State 原理与实践
  • API网关设计:统一管理前端API的最佳实践
  • 画电气原理图的软件哪个最好用?CAD与EPLAN对比!
  • OpenAI成立部署公司并收购Tomoro,AI竞争焦点转向企业落地
  • 告别单调!用LVGL Button控件打造3种高级交互动效(附完整C代码)
  • C#初步认识/入门基础
  • 3步搞定!Mac用户必备的微信聊天记录永久保存方案
  • 本地部署9B代码智能体:从vLLM部署到能力评估实战
  • GitHub每日一题项目:结构化面试训练与社区驱动学习指南
  • EDA/IP标准演进:从OSCI与Accellera合并看行业协同与统一
  • 实证论文不用愁!虎贲等考 AI 数据分析:零代码跑模型,图表 + 结论一键生成
  • 观察Taotoken用量看板如何帮助团队透明化管理API成本
  • LInux(gcc处理器,库文件,动静态库)
  • 去水印工具PDFCommander免费分享(含使用教程)
  • 杂交瘤技术:单克隆抗体制备的经典核心技术
  • 2025-2026年电商园区核定公司联系电话推荐:优质服务与联系要点 - 品牌推荐
  • 如何彻底解决Windows热键冲突问题:Hotkey Detective的完整实战指南
  • 关于低代码起源的联想
  • 别再到处找教程了!Windows Server 2022上OpenLDAP 2.5保姆级安装与配置全流程
  • 2025-2026年电商园区核定公司联系电话推荐:精选参考与联系指引 - 品牌推荐
  • 2026年5月北京生殖咨询公司推荐:一家机构评测第三方助孕场景防信息不对称 - 品牌推荐
  • 光刻仿真技术LFD在芯片设计中的关键应用
  • 多模式MRI数据融合显示帕金森病患者抑郁的结构、功能和神经化学相关
  • KG与LLM:大模型时代的智能规划
  • 从机械奇观到数字逻辑:FPGA设计中的状态机与系统思维
  • 跨越千年的数据守护:从介质衰变到格式过时,如何构建个人数字遗产的长期存储方案
  • 2026年软化水设备厂家口碑推荐:反渗透设备/超纯水设备/水处理设备/市政供水设备/水处理净化设备 - 品牌策略师
  • 2025-2026年北京宝马专修中心推荐:五家专业门店评测城市通勤防抛锚 - 品牌推荐
  • Llama 3 模型实战指南:从安装到部署