当前位置：首页 > news >正文

On - Policy 蒸馏黑箱解剖：为何「名师」难出「高徒」？

news 2026/5/14 23:20:35

On - Policy 蒸馏技术受关注

当下大模型后训练（Post - training）pipeline 中，On - Policy Distillation（OPD）成为明星技术，从 Qwen3、MiMo 到 GLM - 5，业界采用 OPD 并报告了巨大性能提升。相比于强化学习（RL）稀疏的结果奖励，OPD 提供了密集的 Token 级别监督信号，看似是「免费的午餐」。然而，亲手跑过 OPD 的人可能会遇到反直觉现象：换更强的 Teacher，Student 性能反而无提升甚至倒退。

清华大学团队研究成果

清华大学团队联合上海科技大学、伊利诺伊大学厄巴纳 - 香槟分校、中国人民大学等多家机构研究者，系统性解剖了 On - Policy 蒸馏的黑箱。该研究不仅揭示了决定蒸馏成败的两大先决条件，还深挖了 Token 级别的对齐机制，并给出拯救失败蒸馏的实用配方。

现象篇：为何「名师」出不了「高徒」

在常规认知中，Teacher 模型分数越高，蒸馏效果越好。但研究团队通过对比实验，发现控制 OPD 命运的两个核心法则。法则一为思维模式一致性（Thinking - Pattern Consistency），研究者让弱 Base 模型 Qwen3 - 1.7B - Base 向两个能力相近的 Teacher 学习，结果表明学生与经过 GRPO 强化的 Base Teacher 的 thinking pattern 更近，蒸馏效果显著提升，早期思维模式错配后续难弥补。法则二为高分 ≠ 新知识（Higher scores ≠ new knowledge），在 DeepSeek 和 Qwen 两个 family 里，同 pipeline、同 recipe、更大的 teacher 提升有限，经过额外 RL post - training 的 teacher 能恢复更多 teacher - student gap。最极端的「反向蒸馏」实验表明，7B 虽分数高，但相较于 1.5B 只是参数规模红利，未提供更多可学习信息，OPD 是在主动提取并复刻老师的思维模式。

机制篇：Token 级别的显微镜下的发现

研究者监控训练全过程动态指标，发现成功的蒸馏是高概率 Token 的「双向奔赴」。成功的 OPD 中，Student 和 Teacher 的前 k 个预测 Token 的重叠率（Overlap Ratio）从 72% 稳步攀升到 91% 以上，熵差距（Entropy Gap）迅速缩小；失败的 OPD 中，这些指标基本无变化。更重要的是，「重叠区域」即是全部，对 Overlap Token 计算损失，蒸馏性能几乎不打折扣，非重叠 Token 对优化几乎无贡献。

处方篇：拯救「无可救药」的蒸馏

基于上述现象和机制，研究者给出两剂药方。一是教师 Rollout 上进行 Off - Policy 冷启动（Cold Start），先用 Off - Policy 强行对齐，在开始 OPD 之前，让 Student 在 Teacher 生成的 rollout 上进行一轮轻量级的 SFT，能拉高初始 Overlap Ratio，提升最终收敛性能。二是与教师对齐的提示词（Teacher - aligned Prompts），让 OPD 看到更接近 teacher 训练分布的 prompt，包括模板和内容层面的对齐，可提升 accuracy 和 overlap growth，但会使 student entropy 降得更快，最好和一部分 OOD 的 prompt 混用，避免过早熵坍塌。

探讨与反思：OPD 能否无限 Scaling

免费的密集奖励信号诱人，但研究者发现奖励信号质量会随轨迹深度急剧衰减。在长达 15K token 的响应中，出现「从后向前的熵崩塌」，导致 Teacher 后半段给出的奖励成噪音，引发训练坍塌，说明 OPD 目前难扩展到长思维链或 agentic 多轮场景，密集监督与监督可靠性存在根本性张力。此外，失败 teacher 给出的全局 reward 不弱，但局部优化几何结构有问题，全局有信息，局部却平坦。

写在最后：关于「更强」与「更可学」

我们习惯认为越强的教师教得越好，但论文表明未必如此。在 OPD 里，更强不自动等于更会教，高分不自动等于新知识。大模型更像是传递思维路径和局部偏好的组织方式。真正的问题是 teacher 和 student 是否说同一种语言、带来的是否是 student 没学会的东西、给出的监督能否变成有用的梯度。这篇论文系统地告诉我们为何有些 teacher 能教会学生，有些只是「看起来更强」。

查看全文

http://www.jsqmd.com/news/818139/