当前位置：首页 > news >正文

不教而战，边学边教：大模型在线策略蒸馏的机制、优势与挑战

news 2026/4/22 23:19:38

当“教师模型”不再高高在上，而是与学生模型并肩作战，甚至从同一片数据中共同成长——在线策略蒸馏正在重新定义大模型的知识传递方式。

传统知识蒸馏（Knowledge Distillation, KD）通常遵循一个固定的流程：先在大量数据上训练一个庞大的教师模型，然后让轻量级的学生模型去模仿教师的输出。教师是静态的、事后的、高高在上的。

然而，随着大模型（LLM）规模的爆炸式增长，这种离线、非策略的蒸馏模式逐渐显露出瓶颈：教师模型无法感知学生当前的弱点，学生也无法获得“量身定制”的教学信号。于是，在线策略蒸馏（On-Policy Distillation, OPD）应运而生，成为大模型轻量化与持续进化中的一个关键范式。

在线策略蒸馏的核心特征可以概括为三个关键词：在线（Online）、策略（On-Policy）、蒸馏（Distillation）。

在实践中，OPD 常表现为以下几种典型架构：

与离线蒸馏的关键区别如下表所示：

最经典的方法如Deep Mutual Learning (DML)中，多个模型从零开始共同学习，彼此作为教师。在大模型场景下，通常固定一个较强（或较大）的模型作为锚点，小模型通过蒸馏损失与真实损失联合优化。

Mean Teacher范式被广泛用于大模型的在线蒸馏：学生模型通过梯度更新，教师模型则通过学生的指数移动平均（EMA）得到。教师相对稳定又能缓慢吸收学生的进步，避免了双模型同时训练带来的震荡。

在大模型与强化学习结合的场景（如 RLHF、推理时微调）中，OPD 被用来压缩策略网络。具体做法：

学生模型在推理过程中产生的正确或错误样例，被实时喂给教师进行评估，教师给出更精细的反馈（如逐步推理过程、修正建议），再用于更新学生。这种方法尤其适用于代码生成、数学推理等需要高质量思维链的任务。

传统蒸馏中，教师对所有样本一视同仁。在线策略蒸馏中，学生遇到什么困难（例如在某个子任务上连续出错），教师就能针对这些样本提供更强的监督信号。这是离线蒸馏无法实现的“因材施教”。

在持续学习或在线服务场景中，数据分布会随时间变化。离线蒸馏依赖的固定数据集可能很快过时，而 OPD 中学生与教师共同适应新分布，蒸馏信号始终与当前数据分布对齐。

离线蒸馏需要先用大规模算力训练好教师，再额外跑一次蒸馏流程。OPD 允许教师与学生同步训练，甚至在自蒸馏模式下无需第二个独立模型，整体训练预算反而更低。

在 RL 或对话生成等“策略”至关重要的任务中，离线蒸馏往往忽略“学生自己采取行动后的结果”。OPD 直接在学生的策略分布上做蒸馏，保留了因果链和决策依赖，蒸馏出的学生策略更鲁棒。

在线同时更新教师和学生，容易形成正反馈震荡：学生学错 → 教师被污染 → 教师教错 → 学生更错。需要精心设计 EMA、学习率调度、梯度截断等手段来维持稳定。

如果教师与学生共享参数或更新过于频繁，教师的“先进性”会迅速丧失，蒸馏退化为两个弱模型的相互模仿。实践中常采用慢速更新教师（如每隔 100 步同步一次）或维持一个独立的、冻结周期较长的大模型。

OPD 虽然自适应，但如果学生初始策略极差，采集到的数据质量也极低。教师在这些低质量数据上提供的监督信号，可能不如精心构造的离线数据集有效。部分场景下 OPD 需要更多的环境交互次数才能收敛。

离线蒸馏有明确的测试集和固定的教师基线。而 OPD 中教师和学生共同演化，很难剥离出“蒸馏方法”本身的贡献 vs “协同训练带来的额外数据多样性”的贡献。这导致论文中的 SOTA 结果有时难以复现。

需要维护两个（或更多）模型的训练流程、数据流和控制逻辑。在大模型参数量达到百亿级别时，双模型在线蒸馏的显存和通信开销会显著高于离线蒸馏。