斯坦福 CS336 从零构建大模型 (2025 春) - 第十六讲:强化学习与自对齐 (Alignment - RL 1)
斯坦福 CS336 从零构建大模型 (2025 春) - 第十六讲:强化学习与自对齐 (Alignment - RL 1)
文章目录
- 斯坦福 CS336 从零构建大模型 (2025 春) - 第十六讲:强化学习与自对齐 (Alignment - RL 1)
- 一、 RLHF 的局限与过优化陷阱 (Limitations of RLHF)
- 二、 推理 RL 的底层算法:从 PPO 到 GRPO (Algorithms: PPO & GRPO)
- 1. PPO (Proximal Policy Optimization) 的工程噩梦
- 2. GRPO (Group Relative Policy Optimization) 的大道至简
- ⚠️ 对 GRPO 的理论批判 (Critiques of GRPO)
- 三、 现代推理模型的案例研究 (Case Studies: DeepSeek, Kimi, Qwen)
- 案例 1:DeepSeek R1 的成功秘方
- 案例 2:Kimi 1.5 的异曲同工与创新
- 案例 3:Qwen 3 的极致效率与模式融合
- 四、 核心概念问答 (Q&A)
- Q1:为什么 DPO 的损失函数公式里写成log A − log B \log A - \log BlogA−logB(对数之差),而不是直接写成log ( A / B ) \log(A/B)log(A/B)?这是出于数值计算稳定性的考虑吗?
- Q2:随着 RL 优化加深,人类真实偏好胜率反而下降(过优化)的现象,这在本质上是什么?
- Q3:GRPO 中同一个问题生成的 Group(组)内部是如何计算 Baseline 的?
- Q4:为什么在优势计算中除以“标准差(Standard Deviation)”会导致问题?
- Q5:DeepSeek R1 的论文里,有没有使用前面 DeepSeekMath 里的那种过程奖励模型(PRM)?
- Q6:R1 强行加入语言一致性奖励 (Language Consistency Reward) 是否为了性能?
- Q7:Kimi 1.5 中 Inference Worker 和 RL Worker 之间是如何同步权重的?
- Q8:如何将多种奖励(如准确率、格式、长度奖励)结合在一起算总分?
- 五、 第十六讲复习题 (Lecture 16: Alignment - RL 1)
- 一、 RLHF 的局限与范式转移
- 二、 从 PPO 到 GRPO 的算法演进
- 三、 现代推理模型的工业界实践 (DeepSeek, Kimi, Qwen)
- 六、 💡 参考答案与知识点解析
斯坦福 CS336 第十六讲(Alignment - RL 1)是激动人心的一讲。本讲标志着课程从“基于人类偏好的对齐(RLHF,ChatGPT 时代)”正式跨越到了**“基于可验证奖励的强化学习(RL from Verifiable Rewards,o1 和 DeepSeek-R1 时代)”**。讲师深入拆解了如何通过 RL 激发大模型的复杂逻辑推理能力。
以下是本讲不遗漏任何核心知识点的全景深度总结,并在文末完整还原了极其硬核的师生 Q&A 环节:
一、 RLHF 的局限与过优化陷阱 (Limitations of RLHF)
在进入推理模型之前,讲师先总结了上一讲 RLHF(如 DPO 算法)的实证局限性:
- 经验法则的脆弱性:RL 领域的实验结果高度依赖具体设置。例如,AI2 早期论文认为 PPO 优于 DPO,但在后来的 Tulu 3 中发现:如果前置的 SFT(监督微调)做得足够好,PPO 和 DPO 的差距就会消失,甚至加入长度归一化的 DPO 表现最好。
- 过优化 (Overoptimization) / 奖励黑客 (Reward Hacking):随着 RL 不断优化代理奖励模型(Proxy Reward),模型在人类真实偏好上的胜率起初会上升,但超过某个临界点后就会急剧下降(崩溃)。这是因为人类反馈充满噪音且易被欺骗(比如人类偏好长篇大论)。
- 模型校准度下降 (Loss of Calibration):RLHF 不是在拟合一个真实的数据分布,而是在寻找最大化奖励的策略。因此,RLHF 训练出的模型往往会变得极度过度自信(Overconfident),不再是一个经过良好校准的概率模型。
范式转移:既然人类偏好难以大规模收集且极易被 Hack,为什么不转向**拥有“绝对客观/可验证真实奖励(True/Verifiable Rewards)”**的领域(如数学、代码)呢?这就是 AlphaGo 和最新推理大模型(Reasoning Models)成功的核心秘诀。
二、 推理 RL 的底层算法:从 PPO 到 GRPO (Algorithms: PPO & GRPO)
为了在数学等领域进行 RL,我们需要算法。
1. PPO (Proximal Policy Optimization) 的工程噩梦
- PPO 是极为经典的 RL 算法。它需要计算“优势函数(Advantage)”来降低梯度方差,而这必须依赖一个价值模型(Value Model,即 Critic)。
- 致命痛点:价值模型的参数量通常与策略模型(语言模型)一样大。这意味着在训练时,你的 GPU 显存开销直接翻倍。此外,PPO 包含极度复杂的广义优势估计(GAE)、在线重要性采样等,工程实现(如 37个隐藏细节)简直是一场灾难。
2. GRPO (Group Relative Policy Optimization) 的大道至简
为了干掉烦人的价值模型(省显存),DeepSeekMath 提出了极其优雅的 GRPO 算法:
- 核心机制 (Group Baselining):针对同一个输入问题 Q,模型并行生成一组(Group,比如 G=8 个)不同的输出。
- 替代优势函数:由于同一个问题下,这 G 个输出面对的难度是相同的。因此,GRPO 直接计算这 G 个回答的奖励得分,并求出其均值和标准差。某个回答的优势(Advantage)就被简单地定义为该回答奖励的 Z-Score(即( R i − M e a n ) / S t d (R_i - Mean)/Std(Ri−Mean)/Std)。
- 这就完美地实现了一个无需额外神经网络的、自适应问题难度的 Baseline。
