【LLM】RL基本概念
On-policy Off-policy
在强化学习(Reinforcement Learning, RL)中,理解 On-policy(同策略)和 Off-policy(异策略)的核心在于区分两个概念:
- 行为策略 (Behavior Policy, 记为μ\muμ):智能体在环境中实际执行动作、收集数据的策略。
- 目标策略 (Target Policy, 记为π\piπ):智能体正在学习、评估和优化的策略。
On-policy 和 Off-policy 的根本区别就在于这两个策略是否是同一个。
1. On-policy (同策略)
定义:行为策略和目标策略是同一个策略(μ=π\mu = \piμ=π)。
智能体在环境中“边做边学”,它只能利用当前版本的策略所收集到的数据来更新自己。一旦策略更新了,之前收集的旧数据就作废了,必须用新策略重新与环境交互收集数据。
核心特点:
稳定性高:因为你评估和优化的就是你正在执行的策略,方差通常较小,训练比较稳定。
样本效率低 (Sample Inefficient):每次更新都需要重新采样,不能重复利用过去的数据。这在与环境交互成本很高的情况下是个致命缺点。
经典算法:SARSA、REINFORCE、A2C、PPO (Proximal Policy Optimization)。
前沿应用场景:在大型语言模型 (LLM) 和多模态大模型 (VLM) 的对齐阶段(如 RLHF),PPO 是绝对的主流。因为我们需要模型对其当前生成的回答概率分布进行优势函数 (Advantage) 估计,旧模型生成的文本分布与当前模型差异太大,通常难以直接复用(尽管目前也有一些 off-policy 改进的尝试)。
2. Off-policy (异策略)
定义:行为策略和目标策略不是同一个策略(μ≠π\mu \neq \piμ=π)。
智能体可以“旁观者清”或“温故知新”。它在学习目标策略π\piπ的同时,可以利用由其他策略μ\muμ(比如过去的自己、随机探索策略、甚至是人类专家演示)收集到的历史数据。
核心特点:
样本效率高 (Sample Efficient):可以引入经验回放池 (Experience Replay Buffer),把过去所有交互的数据存起来反复学习,极大节省了与环境交互的成本。
收敛难度大:因为是用分布不同的数据来评估当前的策略,会引入分布偏移 (Distribution Shift)。在结合函数近似(如神经网络)和自举 (Bootstrapping) 时,容易出现著名的强化学习“死亡三角 (Deadly Triad)”,导致 Q 值过高估计或训练崩溃。
经典算法:Q-Learning、DQN、DDPG、SAC (Soft Actor-Critic)。
前沿应用场景:在 Vision-Language-Action (VLA) 模型和具身智能(机器人控制)领域,由于让实体机器人去真实世界“试错”收集数据的成本极高且有物理损坏风险,研究重点通常高度依赖 Off-policy 甚至Offline RL (离线强化学习)。我们需要模型能够从海量的人类遥操演示 (Teleoperation) 数据或历史混合数据中直接学习最优策略,而无需实时在环境中执行以收集新数据。
核心对比总结
| 特性 | On-policy (同策略) | Off-policy (异策略) |
|---|---|---|
| 策略关系 | 行为策略 = 目标策略 | 行为策略≠\neq=目标策略 |
| 数据利用 | 只能用当前策略生成的新数据 | 可以复用历史数据、专家数据 |
| 经验回放池 | ❌ 通常不需要 / 不能用 | ✅ 必须使用 (Replay Buffer) |
| 样本效率 | 极低(数据用完即弃) | 极高(数据反复压榨) |
| 训练稳定性 | 较高(直接优化当前目标) | 较低(存在分布偏移、高估风险) |
| 公式示例 | Q(s,a)←r+γQ(s′,a′)Q(s, a) \leftarrow r + \gamma Q(s', a')Q(s,a)←r+γQ(s′,a′)(动作a′a'a′必须由当前π\piπ采样) | Q(s,a)←r+γmaxa′Q(s′,a′)Q(s, a) \leftarrow r + \gamma \max_{a'} Q(s', a')Q(s,a)←r+γmaxa′Q(s′,a′)(直接取最优估计,无关实际怎么走) |
理解这两者的区别,对于在不同的工程落地场景中选择合适的 RL 范式至关重要。如果在虚拟环境(如仿真器、文本生成)中交互成本低,通常首选 On-policy 求稳;如果在物理世界或真实业务中试错成本极高,则必须攻克 Off-policy 带来的不稳定性。
