当前位置: 首页 > news >正文

On - Policy 蒸馏黑箱解剖:为何「名师」难出「高徒」?

On - Policy 蒸馏技术受关注

当下大模型后训练(Post - training)pipeline 中,On - Policy Distillation(OPD)成为明星技术,从 Qwen3、MiMo 到 GLM - 5,业界采用 OPD 并报告了巨大性能提升。相比于强化学习(RL)稀疏的结果奖励,OPD 提供了密集的 Token 级别监督信号,看似是「免费的午餐」。然而,亲手跑过 OPD 的人可能会遇到反直觉现象:换更强的 Teacher,Student 性能反而无提升甚至倒退。

清华大学团队研究成果

清华大学团队联合上海科技大学、伊利诺伊大学厄巴纳 - 香槟分校、中国人民大学等多家机构研究者,系统性解剖了 On - Policy 蒸馏的黑箱。该研究不仅揭示了决定蒸馏成败的两大先决条件,还深挖了 Token 级别的对齐机制,并给出拯救失败蒸馏的实用配方。

现象篇:为何「名师」出不了「高徒」

在常规认知中,Teacher 模型分数越高,蒸馏效果越好。但研究团队通过对比实验,发现控制 OPD 命运的两个核心法则。法则一为思维模式一致性(Thinking - Pattern Consistency),研究者让弱 Base 模型 Qwen3 - 1.7B - Base 向两个能力相近的 Teacher 学习,结果表明学生与经过 GRPO 强化的 Base Teacher 的 thinking pattern 更近,蒸馏效果显著提升,早期思维模式错配后续难弥补。法则二为高分 ≠ 新知识(Higher scores ≠ new knowledge),在 DeepSeek 和 Qwen 两个 family 里,同 pipeline、同 recipe、更大的 teacher 提升有限,经过额外 RL post - training 的 teacher 能恢复更多 teacher - student gap。最极端的「反向蒸馏」实验表明,7B 虽分数高,但相较于 1.5B 只是参数规模红利,未提供更多可学习信息,OPD 是在主动提取并复刻老师的思维模式。

机制篇:Token 级别的显微镜下的发现

研究者监控训练全过程动态指标,发现成功的蒸馏是高概率 Token 的「双向奔赴」。成功的 OPD 中,Student 和 Teacher 的前 k 个预测 Token 的重叠率(Overlap Ratio)从 72% 稳步攀升到 91% 以上,熵差距(Entropy Gap)迅速缩小;失败的 OPD 中,这些指标基本无变化。更重要的是,「重叠区域」即是全部,对 Overlap Token 计算损失,蒸馏性能几乎不打折扣,非重叠 Token 对优化几乎无贡献。

处方篇:拯救「无可救药」的蒸馏

基于上述现象和机制,研究者给出两剂药方。一是教师 Rollout 上进行 Off - Policy 冷启动(Cold Start),先用 Off - Policy 强行对齐,在开始 OPD 之前,让 Student 在 Teacher 生成的 rollout 上进行一轮轻量级的 SFT,能拉高初始 Overlap Ratio,提升最终收敛性能。二是与教师对齐的提示词(Teacher - aligned Prompts),让 OPD 看到更接近 teacher 训练分布的 prompt,包括模板和内容层面的对齐,可提升 accuracy 和 overlap growth,但会使 student entropy 降得更快,最好和一部分 OOD 的 prompt 混用,避免过早熵坍塌。

探讨与反思:OPD 能否无限 Scaling

免费的密集奖励信号诱人,但研究者发现奖励信号质量会随轨迹深度急剧衰减。在长达 15K token 的响应中,出现「从后向前的熵崩塌」,导致 Teacher 后半段给出的奖励成噪音,引发训练坍塌,说明 OPD 目前难扩展到长思维链或 agentic 多轮场景,密集监督与监督可靠性存在根本性张力。此外,失败 teacher 给出的全局 reward 不弱,但局部优化几何结构有问题,全局有信息,局部却平坦。

写在最后:关于「更强」与「更可学」

我们习惯认为越强的教师教得越好,但论文表明未必如此。在 OPD 里,更强不自动等于更会教,高分不自动等于新知识。大模型更像是传递思维路径和局部偏好的组织方式。真正的问题是 teacher 和 student 是否说同一种语言、带来的是否是 student 没学会的东西、给出的监督能否变成有用的梯度。这篇论文系统地告诉我们为何有些 teacher 能教会学生,有些只是「看起来更强」。

http://www.jsqmd.com/news/818139/

相关文章:

  • Claude最新金融智能体模板到底能做什么?一文看懂真实业务场景
  • 见手青哪家好:此山中野生菌安全靠谱 - 19120507004
  • VL53L0X V2激光测距模块的三种工作模式实测:高速、高精度、长距离,到底怎么选?
  • 多模型混战时代:依据任务权重做好模型资源最优分配
  • 2串3串锂电池快充芯片XSP36筋膜枪产品应用
  • 2026年AI原型工具下半场:从“生成界面“到“设计即代码“
  • 双胞胎兄弟被解雇后删96个政府数据库,后续审判及公司失误曝光
  • 构建现代化第三方API客户端:从设计原则到TypeScript实践
  • 3分钟快速上手:Python金融数据自动化的终极解决方案
  • 如何高效解锁艾尔登法环帧率限制:专业玩家的完整配置指南
  • 开发容器Dev Container实战:一键构建跨平台统一开发环境
  • 高光谱图像处理技术 || 从入门到实践:数据、代码与应用
  • CoPaw:构建个人AI助手工作站,打通钉钉飞书实现自动化
  • Python驱动RoboClaw运动控制器:从串口协议到机器人精准控制实战
  • DownGit:3分钟掌握GitHub精准下载的终极解决方案
  • Claude code 如何进行联网搜索
  • 如何在3分钟内掌握Blender超级复制粘贴:让3D资产导入导出效率提升500%
  • 从原理到实践:双目视觉深度感知全流程解析与工程实现
  • c++类派生2
  • 英文论文怎么降AI?实测从88%降至20%的5大方法(附工具实测)
  • 电子签章厂商必须要有 CA 牌照吗?—— 基于法律与行业现实的深度辨析
  • 2026 成都专业 GEO 优化公司甄选|权威测评 5 家标杆服务商 - GEO优化
  • 大模型调用效率翻倍:Token 聚合平台到底有多好用,一篇讲透
  • 开放标准如何加速多媒体设备开发:从接口契约到端到端实践
  • 终极指南:在macOS上轻松运行Windows程序的完整解决方案
  • HS2-HF Patch完全指南:为Honey Select 2打造终极游戏体验
  • LVS验证在IC设计中的关键作用与Calibre nmLVS-Recon创新方法
  • 终极指南:5分钟解锁小爱音箱完整音乐自由
  • 计算机网络八股文:高频面试题全解析
  • 26-cv-785 便携式多功能检测仪器专利维权!