当前位置：首页 > news >正文

【LLM】RL基本概念

news 2026/5/15 7:51:21

在强化学习（Reinforcement Learning, RL）中，理解 On-policy（同策略）和 Off-policy（异策略）的核心在于区分两个概念：

On-policy 和 Off-policy 的根本区别就在于这两个策略是否是同一个。

定义：行为策略和目标策略是同一个策略(μ=π\mu = \piμ=π)。
智能体在环境中“边做边学”，它只能利用当前版本的策略所收集到的数据来更新自己。一旦策略更新了，之前收集的旧数据就作废了，必须用新策略重新与环境交互收集数据。

核心特点：
稳定性高：因为你评估和优化的就是你正在执行的策略，方差通常较小，训练比较稳定。
样本效率低 (Sample Inefficient)：每次更新都需要重新采样，不能重复利用过去的数据。这在与环境交互成本很高的情况下是个致命缺点。
经典算法：SARSA、REINFORCE、A2C、PPO (Proximal Policy Optimization)。
前沿应用场景：在大型语言模型 (LLM) 和多模态大模型 (VLM) 的对齐阶段（如 RLHF），PPO 是绝对的主流。因为我们需要模型对其当前生成的回答概率分布进行优势函数 (Advantage) 估计，旧模型生成的文本分布与当前模型差异太大，通常难以直接复用（尽管目前也有一些 off-policy 改进的尝试）。

定义：行为策略和目标策略不是同一个策略(μ≠π\mu \neq \piμ=π)。
智能体可以“旁观者清”或“温故知新”。它在学习目标策略π\piπ的同时，可以利用由其他策略μ\muμ（比如过去的自己、随机探索策略、甚至是人类专家演示）收集到的历史数据。

核心特点：
样本效率高 (Sample Efficient)：可以引入经验回放池 (Experience Replay Buffer)，把过去所有交互的数据存起来反复学习，极大节省了与环境交互的成本。
收敛难度大：因为是用分布不同的数据来评估当前的策略，会引入分布偏移 (Distribution Shift)。在结合函数近似（如神经网络）和自举 (Bootstrapping) 时，容易出现著名的强化学习“死亡三角 (Deadly Triad)”，导致 Q 值过高估计或训练崩溃。
经典算法：Q-Learning、DQN、DDPG、SAC (Soft Actor-Critic)。
前沿应用场景：在 Vision-Language-Action (VLA) 模型和具身智能（机器人控制）领域，由于让实体机器人去真实世界“试错”收集数据的成本极高且有物理损坏风险，研究重点通常高度依赖 Off-policy 甚至Offline RL (离线强化学习)。我们需要模型能够从海量的人类遥操演示 (Teleoperation) 数据或历史混合数据中直接学习最优策略，而无需实时在环境中执行以收集新数据。

特性	On-policy (同策略)	Off-policy (异策略)
策略关系	行为策略 = 目标策略	行为策略≠\neq=目标策略
数据利用	只能用当前策略生成的新数据	可以复用历史数据、专家数据
经验回放池	❌ 通常不需要 / 不能用	✅ 必须使用 (Replay Buffer)
样本效率	极低（数据用完即弃）	极高（数据反复压榨）
训练稳定性	较高（直接优化当前目标）	较低（存在分布偏移、高估风险）
公式示例	Q(s,a)←r+γQ(s′,a′)Q(s, a) \leftarrow r + \gamma Q(s', a')Q(s,a)←r+γQ(s′,a′)(动作a′a'a′必须由当前π\piπ采样)	Q(s,a)←r+γmax⁡a′Q(s′,a′)Q(s, a) \leftarrow r + \gamma \max_{a'} Q(s', a')Q(s,a)←r+γmaxa′Q(s′,a′)(直接取最优估计，无关实际怎么走)