当前位置: 首页 > news >正文

PPO是属于什么类型的RL算法,on policy还是off policy

PPO是属于什么类型的RL算法,on policy还是off policy

PPO(Proximal Policy Optimization属于 on-policy 的强化学习算法


结论一句话

👉PPO 是 on-policy 的策略梯度(Policy Gradient)方法,而不是 off-policy。


为什么 PPO 是 on-policy?

1️⃣ 数据来源决定属性

  • on-policy
    使用**当前策略(或非常接近的策略)**采样得到的数据来更新策略

  • off-policy
    可以用历史策略或其他策略采样的数据(例如 replay buffer)

👉 PPO 在每一轮更新中:

  • 当前策略πθ_old采样轨迹

  • 用这些轨迹来更新新策略 πθ

虽然更新过程中会进行多次gradient step,但这些数据不能跨策略长期复用,这就是 on-policy 的核心特征。


2️⃣ PPO 的核心目标函数是 on-policy 的

PPO 的 clipped objective:

LCLIP(θ)=Et[min⁡(rt(θ)At, clip(rt(θ),1−ϵ,1+ϵ)At)]L^{\text{CLIP}}(\theta) = \mathbb{E}_t \left[ \min\left( r_t(\theta) A_t,\; \text{clip}(r_t(\theta), 1-\epsilon, 1+\epsilon) A_t \right) \right]LCLIP(θ)=Et​[min(rt​(θ)At​,clip(rt​(θ),1−ϵ,1+ϵ)At​)]

其中:

rt(θ)=πθ(at∣st)πθold(at∣st)r_t(\theta) = \frac{\pi_\theta(a_t|s_t)}{\pi_{\theta_{\text{old}}}(a_t|s_t)}rt​(θ)=πθold​​(at​∣st​)πθ​(at​∣st​)​

关键点:

  • 分母是采样数据时的旧策略

  • 数据必须来自π_old

  • 如果策略差太多,clip 会限制更新

👉 这是受限的 on-policy 更新,而不是 off-policy 的任意重放。


3️⃣ PPO 和 off-policy 方法的本质区别

算法类型是否可用 replay buffer代表算法
PPOOn-policy❌ 不可长期复用PPO, A2C, TRPO
DQNOff-policyDQN
SACOff-policySAC
TD3Off-policyTD3

常见误解澄清 ⚠️

❌ “PPO 用 importance sampling,所以是 off-policy?”

不对。

  • PPO 的 importance sampling只是限制新旧策略的差异

  • 并不允许使用任意旧数据

  • 数据仍然来自最近一次策略

👉 这是on-policy with correction,不是 off-policy


一句话记忆法 🧠

  • 策略梯度 + 当前策略采样 = on-policy

  • Q-learning + replay buffer = off-policy

PPO 属于前者。


如果你愿意,我也可以:

  • 理论角度对比 PPO vs SAC

  • 量化交易 / 连续控制角度讲为什么 PPO 常被用

  • 结合代码(如 Stable-Baselines / CleanRL)解释 on-policy 的具体实现

直接告诉我你更关心哪一块 👍

http://www.jsqmd.com/news/88944/

相关文章:

  • 【Python大数据项目推荐】Spark+Django共享单车数据分析可视化系统实现 毕业设计 选题推荐 毕设选题 数据分析 机器学习
  • vue基于Spring Boot框架的在线投稿系统的设计与开发_fu09r447
  • 56(12.10))
  • 某安全so库深度解析
  • 压缩文件夹下下所有文件成压缩包tar.gz--随笔016
  • 影刀RPA神操作!TikTok直播转化分析效率提升800%,告别手工统计![特殊字符]
  • 05-矩阵理论复习第五章 向量与矩阵范数
  • 57(12.11)
  • Emacs折腾日记(三十三)——org实现gtd任务管理系统
  • 【Python大数据分析选题】基于Hadoop+Spark的股市行情可视化平台 毕业设计 选题推荐 毕设选题 数据分析 机器学习
  • 【开题答辩全过程】以 基于协同过滤算法的经济型酒店推荐系统为例,包含答辩的问题和答案
  • 58(12.12)
  • CF1015F Bracket Substring - crazy-
  • 华为开源自研AI框架昇思MindSpore实战:手把手带你用GAN生成手写数字
  • TikTok商品视频发布太耗时?影刀RPA一键智能发布,效率飙升12倍![特殊字符]
  • SpringBoot 缓存深入
  • 服务架构相关知识及演进
  • 使用 Python 语言 从 0 到 1 搭建完整 Web UI自动化测试学习系列 33--基础知识 8--切换窗口句柄
  • C语言图论:最小生成树算法
  • 影刀RPA竞品分析黑科技!AI一键生成TikTok竞品报告,效率提升1000% [特殊字符]
  • 在服务器上安装 aaPanel
  • 7-3 NCHUD-数字电路模拟程序
  • Zotero下载安装保姆级教程(附官网正版安装包,非常详细)
  • 堆箱子问题:从暴力递归到动态规划的优化之路
  • 动态Shape场景下Ascend C算子Tiling的挑战与实现
  • 运行时端的执行流程-–-behaviac
  • 影刀RPA亚马逊上架革命!3分钟自动上架商品,效率暴增1500% [特殊字符]
  • 一站式了解长轮询,SSE和WebSocket
  • CrystalDiskInfo官网下载安装保姆级教程(含中文版安装包,亲测有效)
  • 教程7:行为树的连调-–-behaviac