当前位置: 首页 > news >正文

斯坦福 CS336 从零构建大模型 (2025 春) - 第十六讲:强化学习与自对齐 (Alignment - RL 1)

斯坦福 CS336 从零构建大模型 (2025 春) - 第十六讲:强化学习与自对齐 (Alignment - RL 1)

文章目录

  • 斯坦福 CS336 从零构建大模型 (2025 春) - 第十六讲:强化学习与自对齐 (Alignment - RL 1)
    • 一、 RLHF 的局限与过优化陷阱 (Limitations of RLHF)
    • 二、 推理 RL 的底层算法:从 PPO 到 GRPO (Algorithms: PPO & GRPO)
      • 1. PPO (Proximal Policy Optimization) 的工程噩梦
      • 2. GRPO (Group Relative Policy Optimization) 的大道至简
      • ⚠️ 对 GRPO 的理论批判 (Critiques of GRPO)
    • 三、 现代推理模型的案例研究 (Case Studies: DeepSeek, Kimi, Qwen)
      • 案例 1:DeepSeek R1 的成功秘方
      • 案例 2:Kimi 1.5 的异曲同工与创新
      • 案例 3:Qwen 3 的极致效率与模式融合
    • 四、 核心概念问答 (Q&A)
      • Q1:为什么 DPO 的损失函数公式里写成log ⁡ A − log ⁡ B \log A - \log BlogAlogB(对数之差),而不是直接写成log ⁡ ( A / B ) \log(A/B)log(A/B)?这是出于数值计算稳定性的考虑吗?
      • Q2:随着 RL 优化加深,人类真实偏好胜率反而下降(过优化)的现象,这在本质上是什么?
      • Q3:GRPO 中同一个问题生成的 Group(组)内部是如何计算 Baseline 的?
      • Q4:为什么在优势计算中除以“标准差(Standard Deviation)”会导致问题?
      • Q5:DeepSeek R1 的论文里,有没有使用前面 DeepSeekMath 里的那种过程奖励模型(PRM)?
      • Q6:R1 强行加入语言一致性奖励 (Language Consistency Reward) 是否为了性能?
      • Q7:Kimi 1.5 中 Inference Worker 和 RL Worker 之间是如何同步权重的?
      • Q8:如何将多种奖励(如准确率、格式、长度奖励)结合在一起算总分?
    • 五、 第十六讲复习题 (Lecture 16: Alignment - RL 1)
      • 一、 RLHF 的局限与范式转移
      • 二、 从 PPO 到 GRPO 的算法演进
      • 三、 现代推理模型的工业界实践 (DeepSeek, Kimi, Qwen)
    • 六、 💡 参考答案与知识点解析

斯坦福 CS336 第十六讲(Alignment - RL 1)是激动人心的一讲。本讲标志着课程从“基于人类偏好的对齐(RLHF,ChatGPT 时代)”正式跨越到了**“基于可验证奖励的强化学习(RL from Verifiable Rewards,o1 和 DeepSeek-R1 时代)”**。讲师深入拆解了如何通过 RL 激发大模型的复杂逻辑推理能力。

以下是本讲不遗漏任何核心知识点的全景深度总结,并在文末完整还原了极其硬核的师生 Q&A 环节:


一、 RLHF 的局限与过优化陷阱 (Limitations of RLHF)

在进入推理模型之前,讲师先总结了上一讲 RLHF(如 DPO 算法)的实证局限性:

  • 经验法则的脆弱性:RL 领域的实验结果高度依赖具体设置。例如,AI2 早期论文认为 PPO 优于 DPO,但在后来的 Tulu 3 中发现:如果前置的 SFT(监督微调)做得足够好,PPO 和 DPO 的差距就会消失,甚至加入长度归一化的 DPO 表现最好。
  • 过优化 (Overoptimization) / 奖励黑客 (Reward Hacking):随着 RL 不断优化代理奖励模型(Proxy Reward),模型在人类真实偏好上的胜率起初会上升,但超过某个临界点后就会急剧下降(崩溃)。这是因为人类反馈充满噪音且易被欺骗(比如人类偏好长篇大论)。
  • 模型校准度下降 (Loss of Calibration):RLHF 不是在拟合一个真实的数据分布,而是在寻找最大化奖励的策略。因此,RLHF 训练出的模型往往会变得极度过度自信(Overconfident),不再是一个经过良好校准的概率模型。

范式转移:既然人类偏好难以大规模收集且极易被 Hack,为什么不转向**拥有“绝对客观/可验证真实奖励(True/Verifiable Rewards)”**的领域(如数学、代码)呢?这就是 AlphaGo 和最新推理大模型(Reasoning Models)成功的核心秘诀。


二、 推理 RL 的底层算法:从 PPO 到 GRPO (Algorithms: PPO & GRPO)

为了在数学等领域进行 RL,我们需要算法。

1. PPO (Proximal Policy Optimization) 的工程噩梦

  • PPO 是极为经典的 RL 算法。它需要计算“优势函数(Advantage)”来降低梯度方差,而这必须依赖一个价值模型(Value Model,即 Critic)。
  • 致命痛点:价值模型的参数量通常与策略模型(语言模型)一样大。这意味着在训练时,你的 GPU 显存开销直接翻倍。此外,PPO 包含极度复杂的广义优势估计(GAE)、在线重要性采样等,工程实现(如 37个隐藏细节)简直是一场灾难。

2. GRPO (Group Relative Policy Optimization) 的大道至简

为了干掉烦人的价值模型(省显存),DeepSeekMath 提出了极其优雅的 GRPO 算法:

  • 核心机制 (Group Baselining):针对同一个输入问题 Q,模型并行生成一组(Group,比如 G=8 个)不同的输出。
  • 替代优势函数:由于同一个问题下,这 G 个输出面对的难度是相同的。因此,GRPO 直接计算这 G 个回答的奖励得分,并求出其均值和标准差。某个回答的优势(Advantage)就被简单地定义为该回答奖励的 Z-Score(即( R i − M e a n ) / S t d (R_i - Mean)/Std(RiMean)/Std)。
  • 这就完美地实现了一个无需额外神经网络的、自适应问题难度的 Baseline。

⚠️ 对 GRPO 的理论批判 (Critiques of GRPO)

http://www.jsqmd.com/news/502545/

相关文章:

  • MMWAVE SDK中的RF控制与数据路径详解:从理论到实践
  • 国内开发者福音:SwanLab替代Wandb实现具身智能训练参数可视化(附完整配置流程)
  • Abaqus与Isight联合仿真:从参数优化到自动化流程实战
  • Cogito-V1-Preview-Llama-3B实战:构建基于智能体(Agent)的自动化任务系统
  • FUTURE POLICE与AI Agent联动实战:构建自主语音任务处理智能体
  • SDL_ttf 3.0 迁移策略深度解析:构建系统适配与API兼容性挑战
  • Eclipse项目迁移到IntelliJ IDEA避坑指南:解决Web项目导入后无法运行的问题
  • 桌面级德州扑克GTO求解器:Desktop Postflop完全指南
  • VideoAgentTrek-ScreenFilter性能优化教程:C语言底层接口调用与内存管理
  • 光耦怎么区分1234脚
  • ZYNQ时钟设计避坑指南:MMCM/PLL选型与BUFG/BUFH布线技巧
  • 编程语言扩展的外部函数接口(FFI)概述
  • GASDocumentation项目实战指南:从核心模块到配置优化
  • 从零到一:基于STM32与W25Q64的OTA BootLoader实战解析
  • YOLO-v8.3新手入门:无需配置,一键开启目标检测开发
  • Linux下NDI Aurora磁导航API配置全攻略:从串口设置到手术导航系统集成
  • Prompt Engineering实战指南:7大核心技术从原理到实践
  • ‌智慧校园统一门户:管理难题如何破解?五大场景轻松搞定
  • LightGBM:如何通过GOSS与EFB革新梯度提升决策树的训练效率
  • Guohua Diffusion 快速入门:C语言开发者也能懂的模型调用原理
  • Codeforces Round 925 (Div. 3)
  • 为什么安全生产管理系统越来越受企业重视?
  • VSCode Markdown转PDF字体美化全攻略:告别默认僵硬字体(附微软雅黑配置)
  • ELF1126B 开发板 + 移远 EM05 4G 模块|一步到位联网测试全记录
  • Z-Image-Turbo_Sugar脸部Lora项目实战:构建基于Vue.js的前端管理平台
  • VibeVoice API开放能力:WebSocket流式接口赋能多端集成
  • LiuJuan20260223Zimage网络安全应用:渗透测试环境搭建
  • 大模型“越学越乱“?揭秘持续学习背后的收敛性难题与控制之道
  • 电脑用户需要了解和熟悉一些系统安全防护常识, 从零基础到精通,收藏这篇就够了!
  • 【效率跃迁】STM32CubeMX:图形化配置如何重塑嵌入式开发流程