On - Policy 蒸馏黑箱解剖:为何「名师」难出「高徒」?
On - Policy 蒸馏技术受关注
当下大模型后训练(Post - training)pipeline 中,On - Policy Distillation(OPD)成为明星技术,从 Qwen3、MiMo 到 GLM - 5,业界采用 OPD 并报告了巨大性能提升。相比于强化学习(RL)稀疏的结果奖励,OPD 提供了密集的 Token 级别监督信号,看似是「免费的午餐」。然而,亲手跑过 OPD 的人可能会遇到反直觉现象:换更强的 Teacher,Student 性能反而无提升甚至倒退。
清华大学团队研究成果
清华大学团队联合上海科技大学、伊利诺伊大学厄巴纳 - 香槟分校、中国人民大学等多家机构研究者,系统性解剖了 On - Policy 蒸馏的黑箱。该研究不仅揭示了决定蒸馏成败的两大先决条件,还深挖了 Token 级别的对齐机制,并给出拯救失败蒸馏的实用配方。
现象篇:为何「名师」出不了「高徒」
在常规认知中,Teacher 模型分数越高,蒸馏效果越好。但研究团队通过对比实验,发现控制 OPD 命运的两个核心法则。法则一为思维模式一致性(Thinking - Pattern Consistency),研究者让弱 Base 模型 Qwen3 - 1.7B - Base 向两个能力相近的 Teacher 学习,结果表明学生与经过 GRPO 强化的 Base Teacher 的 thinking pattern 更近,蒸馏效果显著提升,早期思维模式错配后续难弥补。法则二为高分 ≠ 新知识(Higher scores ≠ new knowledge),在 DeepSeek 和 Qwen 两个 family 里,同 pipeline、同 recipe、更大的 teacher 提升有限,经过额外 RL post - training 的 teacher 能恢复更多 teacher - student gap。最极端的「反向蒸馏」实验表明,7B 虽分数高,但相较于 1.5B 只是参数规模红利,未提供更多可学习信息,OPD 是在主动提取并复刻老师的思维模式。
机制篇:Token 级别的显微镜下的发现
研究者监控训练全过程动态指标,发现成功的蒸馏是高概率 Token 的「双向奔赴」。成功的 OPD 中,Student 和 Teacher 的前 k 个预测 Token 的重叠率(Overlap Ratio)从 72% 稳步攀升到 91% 以上,熵差距(Entropy Gap)迅速缩小;失败的 OPD 中,这些指标基本无变化。更重要的是,「重叠区域」即是全部,对 Overlap Token 计算损失,蒸馏性能几乎不打折扣,非重叠 Token 对优化几乎无贡献。
处方篇:拯救「无可救药」的蒸馏
基于上述现象和机制,研究者给出两剂药方。一是教师 Rollout 上进行 Off - Policy 冷启动(Cold Start),先用 Off - Policy 强行对齐,在开始 OPD 之前,让 Student 在 Teacher 生成的 rollout 上进行一轮轻量级的 SFT,能拉高初始 Overlap Ratio,提升最终收敛性能。二是与教师对齐的提示词(Teacher - aligned Prompts),让 OPD 看到更接近 teacher 训练分布的 prompt,包括模板和内容层面的对齐,可提升 accuracy 和 overlap growth,但会使 student entropy 降得更快,最好和一部分 OOD 的 prompt 混用,避免过早熵坍塌。
探讨与反思:OPD 能否无限 Scaling
免费的密集奖励信号诱人,但研究者发现奖励信号质量会随轨迹深度急剧衰减。在长达 15K token 的响应中,出现「从后向前的熵崩塌」,导致 Teacher 后半段给出的奖励成噪音,引发训练坍塌,说明 OPD 目前难扩展到长思维链或 agentic 多轮场景,密集监督与监督可靠性存在根本性张力。此外,失败 teacher 给出的全局 reward 不弱,但局部优化几何结构有问题,全局有信息,局部却平坦。
写在最后:关于「更强」与「更可学」
我们习惯认为越强的教师教得越好,但论文表明未必如此。在 OPD 里,更强不自动等于更会教,高分不自动等于新知识。大模型更像是传递思维路径和局部偏好的组织方式。真正的问题是 teacher 和 student 是否说同一种语言、带来的是否是 student 没学会的东西、给出的监督能否变成有用的梯度。这篇论文系统地告诉我们为何有些 teacher 能教会学生,有些只是「看起来更强」。
