当前位置：首页 > news >正文

英伟达：离线策略蒸馏Lightning OPD

news 2026/5/5 23:36:02

📖标题：Lightning OPD: Efficient Post-Training for Large Reasoning Models with Offline On-Policy Distillation
🌐来源：arXiv, 2604.13010v1

🛎️文章简介
🔸研究问题：如何在消除实时教师推理服务器带来的巨大基础设施开销的同时，保持在线策略蒸馏（OPD）的高效性与高性能？
🔸主要贡献：论文发现了“教师一致性”这一关键条件，并据此提出了 Lightning OPD 框架，通过预计算教师概率实现了无需实时服务器的离线训练，在大幅降低算力成本的同时达到了最先进性能。

📝重点思路
🔸提出教师一致性原则，指出监督微调（SFT）阶段生成数据的教师模型必须与 OPD 阶段提供分布参考的教师模型完全一致，否则会导致不可消除的梯度偏差。
🔸设计 Lightning OPD 两阶段流程：首先在 SFT 阶段利用指定教师生成轨迹并微调基座模型得到参考策略；随后在预处理阶段仅对该参考策略的 rollout 进行一次性的教师对数概率计算并存储。
🔸构建离线训练目标，在正式训练学生模型时直接读取预存的教师概率值，完全解耦了训练过程与实时教师推理服务，将在线采样分布固定为 SFT 后的参考分布。
🔸理论证明在满足教师一致性前提下，该离线方法与标准在线 OPD 共享相同的最优解，且梯度差异有界，同时固定的 Rollout 分布引入了隐式正则化效应以抑制策略漂移。

🔎分析总结
🔸实验表明违反教师一致性会导致在线和离线 OPD 均收敛至次优固定点，且在离线设置下由于分布不匹配叠加，性能下降更为显著。
🔸在数学推理和代码生成任务上，Lightning OPD 的性能持平甚至略优于标准 OPD，例如在 AIME 2024 基准上 Qwen3-8B 模型达到了 69.9% 的通过率。
🔸该方法显著提升了训练效率，相比标准 OPD 实现了 4.0 倍的加速，将 8B 模型的训练成本从 120 GPU 小时降低至 30 GPU 小时，且无需维护高并发的教师服务集群。
🔸训练动态分析显示，学生策略在整个训练过程中始终紧密围绕参考分布，重要性权重的均值和方差保持稳定，验证了隐式正则化的有效性。

💡个人观点
论文识别出被以往研究忽视的“教师一致性”理论约束，将原本被视为必须的在线交互转化为一次性的离线预处理。

查看全文

http://www.jsqmd.com/news/760082/