当前位置：首页 > news >正文

斯坦福 CS336 从零构建大模型 (2025 春) - 第十六讲：强化学习与自对齐 (Alignment - RL 1)

news 2026/4/2 14:49:37

斯坦福 CS336 从零构建大模型 (2025 春) - 第十六讲：强化学习与自对齐 (Alignment - RL 1)

文章目录

斯坦福 CS336 从零构建大模型 (2025 春) - 第十六讲：强化学习与自对齐 (Alignment - RL 1)
- 一、 RLHF 的局限与过优化陷阱 (Limitations of RLHF)
- 二、推理 RL 的底层算法：从 PPO 到 GRPO (Algorithms: PPO & GRPO)
- - 1. PPO (Proximal Policy Optimization) 的工程噩梦
  - 2. GRPO (Group Relative Policy Optimization) 的大道至简
  - ⚠️ 对 GRPO 的理论批判 (Critiques of GRPO)
- 三、现代推理模型的案例研究 (Case Studies: DeepSeek, Kimi, Qwen)
- - 案例 1：DeepSeek R1 的成功秘方
  - 案例 2：Kimi 1.5 的异曲同工与创新
  - 案例 3：Qwen 3 的极致效率与模式融合
- 四、核心概念问答 (Q&A)
- - Q1：为什么 DPO 的损失函数公式里写成log ⁡ A − log ⁡ B \log A - \log BlogA−logB（对数之差），而不是直接写成log ⁡ ( A / B ) \log(A/B)log(A/B)？这是出于数值计算稳定性的考虑吗？
  - Q2：随着 RL 优化加深，人类真实偏好胜率反而下降（过优化）的现象，这在本质上是什么？
  - Q3：GRPO 中同一个问题生成的 Group（组）内部是如何计算 Baseline 的？
  - Q4：为什么在优势计算中除以“标准差（Standard Deviation）”会导致问题？
  - Q5：DeepSeek R1 的论文里，有没有使用前面 DeepSeekMath 里的那种过程奖励模型（PRM）？
  - Q6：R1 强行加入语言一致性奖励 (Language Consistency Reward) 是否为了性能？
  - Q7：Kimi 1.5 中 Inference Worker 和 RL Worker 之间是如何同步权重的？
  - Q8：如何将多种奖励（如准确率、格式、长度奖励）结合在一起算总分？
- 五、第十六讲复习题 (Lecture 16: Alignment - RL 1)
- - 一、 RLHF 的局限与范式转移
  - 二、从 PPO 到 GRPO 的算法演进
  - 三、现代推理模型的工业界实践 (DeepSeek, Kimi, Qwen)
- 六、 💡 参考答案与知识点解析

斯坦福 CS336 第十六讲（Alignment - RL 1）是激动人心的一讲。本讲标志着课程从“基于人类偏好的对齐（RLHF，ChatGPT 时代）”正式跨越到了**“基于可验证奖励的强化学习（RL from Verifiable Rewards，o1 和 DeepSeek-R1 时代）”**。讲师深入拆解了如何通过 RL 激发大模型的复杂逻辑推理能力。

以下是本讲不遗漏任何核心知识点的全景深度总结，并在文末完整还原了极其硬核的师生 Q&A 环节：

一、 RLHF 的局限与过优化陷阱 (Limitations of RLHF)

在进入推理模型之前，讲师先总结了上一讲 RLHF（如 DPO 算法）的实证局限性：

经验法则的脆弱性：RL 领域的实验结果高度依赖具体设置。例如，AI2 早期论文认为 PPO 优于 DPO，但在后来的 Tulu 3 中发现：如果前置的 SFT（监督微调）做得足够好，PPO 和 DPO 的差距就会消失，甚至加入长度归一化的 DPO 表现最好。
过优化 (Overoptimization) / 奖励黑客 (Reward Hacking)：随着 RL 不断优化代理奖励模型（Proxy Reward），模型在人类真实偏好上的胜率起初会上升，但超过某个临界点后就会急剧下降（崩溃）。这是因为人类反馈充满噪音且易被欺骗（比如人类偏好长篇大论）。
模型校准度下降 (Loss of Calibration)：RLHF 不是在拟合一个真实的数据分布，而是在寻找最大化奖励的策略。因此，RLHF 训练出的模型往往会变得极度过度自信（Overconfident），不再是一个经过良好校准的概率模型。

范式转移：既然人类偏好难以大规模收集且极易被 Hack，为什么不转向**拥有“绝对客观/可验证真实奖励（True/Verifiable Rewards）”**的领域（如数学、代码）呢？这就是 AlphaGo 和最新推理大模型（Reasoning Models）成功的核心秘诀。

二、推理 RL 的底层算法：从 PPO 到 GRPO (Algorithms: PPO & GRPO)

为了在数学等领域进行 RL，我们需要算法。

1. PPO (Proximal Policy Optimization) 的工程噩梦

PPO 是极为经典的 RL 算法。它需要计算“优势函数（Advantage）”来降低梯度方差，而这必须依赖一个价值模型（Value Model，即 Critic）。
致命痛点：价值模型的参数量通常与策略模型（语言模型）一样大。这意味着在训练时，你的 GPU 显存开销直接翻倍。此外，PPO 包含极度复杂的广义优势估计（GAE）、在线重要性采样等，工程实现（如 37个隐藏细节）简直是一场灾难。

2. GRPO (Group Relative Policy Optimization) 的大道至简

为了干掉烦人的价值模型（省显存），DeepSeekMath 提出了极其优雅的 GRPO 算法：

核心机制 (Group Baselining)：针对同一个输入问题 Q，模型并行生成一组（Group，比如 G=8 个）不同的输出。
替代优势函数：由于同一个问题下，这 G 个输出面对的难度是相同的。因此，GRPO 直接计算这 G 个回答的奖励得分，并求出其均值和标准差。某个回答的优势（Advantage）就被简单地定义为该回答奖励的 Z-Score（即( R i − M e a n ) / S t d (R_i - Mean)/Std(Ri−Mean)/Std）。
这就完美地实现了一个无需额外神经网络的、自适应问题难度的 Baseline。