当前位置: 首页 > news >正文

【LLM】RL基本概念

On-policy Off-policy

在强化学习(Reinforcement Learning, RL)中,理解 On-policy(同策略)和 Off-policy(异策略)的核心在于区分两个概念:

  1. 行为策略 (Behavior Policy, 记为μ\muμ):智能体在环境中实际执行动作、收集数据的策略。
  2. 目标策略 (Target Policy, 记为π\piπ):智能体正在学习、评估和优化的策略。

On-policy 和 Off-policy 的根本区别就在于这两个策略是否是同一个


1. On-policy (同策略)

定义:行为策略和目标策略是同一个策略(μ=π\mu = \piμ=π)。
智能体在环境中“边做边学”,它只能利用当前版本的策略所收集到的数据来更新自己。一旦策略更新了,之前收集的旧数据就作废了,必须用新策略重新与环境交互收集数据。

  • 核心特点

  • 稳定性高:因为你评估和优化的就是你正在执行的策略,方差通常较小,训练比较稳定。

  • 样本效率低 (Sample Inefficient):每次更新都需要重新采样,不能重复利用过去的数据。这在与环境交互成本很高的情况下是个致命缺点。

  • 经典算法:SARSA、REINFORCE、A2C、PPO (Proximal Policy Optimization)

  • 前沿应用场景:在大型语言模型 (LLM) 和多模态大模型 (VLM) 的对齐阶段(如 RLHF),PPO 是绝对的主流。因为我们需要模型对其当前生成的回答概率分布进行优势函数 (Advantage) 估计,旧模型生成的文本分布与当前模型差异太大,通常难以直接复用(尽管目前也有一些 off-policy 改进的尝试)。

2. Off-policy (异策略)

定义:行为策略和目标策略不是同一个策略(μ≠π\mu \neq \piμ=π)。
智能体可以“旁观者清”或“温故知新”。它在学习目标策略π\piπ的同时,可以利用由其他策略μ\muμ(比如过去的自己、随机探索策略、甚至是人类专家演示)收集到的历史数据。

  • 核心特点

  • 样本效率高 (Sample Efficient):可以引入经验回放池 (Experience Replay Buffer),把过去所有交互的数据存起来反复学习,极大节省了与环境交互的成本。

  • 收敛难度大:因为是用分布不同的数据来评估当前的策略,会引入分布偏移 (Distribution Shift)。在结合函数近似(如神经网络)和自举 (Bootstrapping) 时,容易出现著名的强化学习“死亡三角 (Deadly Triad)”,导致 Q 值过高估计或训练崩溃。

  • 经典算法:Q-Learning、DQN、DDPG、SAC (Soft Actor-Critic)

  • 前沿应用场景:在 Vision-Language-Action (VLA) 模型和具身智能(机器人控制)领域,由于让实体机器人去真实世界“试错”收集数据的成本极高且有物理损坏风险,研究重点通常高度依赖 Off-policy 甚至Offline RL (离线强化学习)。我们需要模型能够从海量的人类遥操演示 (Teleoperation) 数据或历史混合数据中直接学习最优策略,而无需实时在环境中执行以收集新数据。


核心对比总结

特性On-policy (同策略)Off-policy (异策略)
策略关系行为策略 = 目标策略行为策略≠\neq=目标策略
数据利用只能用当前策略生成的新数据可以复用历史数据、专家数据
经验回放池❌ 通常不需要 / 不能用✅ 必须使用 (Replay Buffer)
样本效率极低(数据用完即弃)极高(数据反复压榨)
训练稳定性较高(直接优化当前目标)较低(存在分布偏移、高估风险)
公式示例Q(s,a)←r+γQ(s′,a′)Q(s, a) \leftarrow r + \gamma Q(s', a')Q(s,a)r+γQ(s,a)(动作a′a'a必须由当前π\piπ采样)Q(s,a)←r+γmax⁡a′Q(s′,a′)Q(s, a) \leftarrow r + \gamma \max_{a'} Q(s', a')Q(s,a)r+γmaxaQ(s,a)(直接取最优估计,无关实际怎么走)

理解这两者的区别,对于在不同的工程落地场景中选择合适的 RL 范式至关重要。如果在虚拟环境(如仿真器、文本生成)中交互成本低,通常首选 On-policy 求稳;如果在物理世界或真实业务中试错成本极高,则必须攻克 Off-policy 带来的不稳定性。

http://www.jsqmd.com/news/820405/

相关文章:

  • PySpark 安装全过程总结
  • MicroBlaze软核在DDR3里跑,你的sleep函数为啥“睡过头”?Vitis 2020.1避坑实录
  • 【职场】为什么职场里最危险的人,不是坏人,而是「好人缘」的人
  • 2026年杭州算力市场大揭秘:哪家才是真正专业之选?
  • 当下Java面试临时刷刷八股还有用吗?
  • HPC能效优化:异构计算与算法革新实践
  • 2026年和平区管道疏通施工队,究竟有何独特之处值得关注?
  • 高压直流配电技术:数据中心能效革命的关键
  • 高频谐波Betatron边带优化技术在束流提取中的应用
  • Ecovadis认证咨询机构推荐及选择参考 - 品牌排行榜
  • 掌握Avogadro 2:从分子可视化到计算化学的完整实践指南
  • Godot引擎软体物理插件:基于PBD的可变形网格实现与应用
  • 当AI接过你的购物车,电商的游戏规则被改写
  • AI崛起,Java面试还需要背八股文吗?
  • 基于OpenClaw-Honcho的多智能体系统构建:从原理到工程实践
  • AI Agent 安全治理深度解析:MCP Server 与 A2A Agent 的自动化扫描架构
  • 2026目前好用的铁路运输抑尘剂品牌厂家口碑推荐 - 品牌排行榜
  • 出口黎巴嫩必知:清关要求与税费标准
  • Adafruit PiCowBell扩展板:简化Raspberry Pi Pico原型设计的终极利器
  • 2026年7月夏季供应链管理专家(SCMP)考试通知
  • ARM架构系统寄存器解析:CPACR_EL1与CPTR_EL2详解
  • 2026年法式拼瓷砖厂家榜单好评分析就选择:芒果瓷砖 - 品牌推广大师
  • 2026年北京好用的纤维素抑尘剂厂家排名 - 品牌排行榜
  • 基于meta-kb构建智能知识库:从文档向量化到RAG应用实战
  • B站缓存视频转换终极指南:3分钟无损转MP4的完整教程
  • SystemRescue 9.06 系统救援工具:新特性解析与实战应用指南
  • 2026年小程序开发审核新规则,轻松应对不通过难题
  • Docusaurus技能库插件:打造动态技术栈展示面板
  • 基于开源项目chatgpt-cloned构建本地化AI对话应用:架构、部署与定制指南
  • win出现外接显示器设置错误点不亮问题