当前位置: 首页 > news >正文

大模型后训练新范式:On-Policy Distillation(OPD)原理、流程与实验实践详解

下面按“原理 → 目标函数 → 训练循环 → 实验步骤 → 诊断与排错”来解释。

这里的On-Policy Distillation,OPD,不是单一固定算法,而是一类后训练范式:学生模型先按当前策略生成自己的回答轨迹,再让教师模型在这些学生真实访问到的状态上提供 token-level / step-level 监督信号

Thinking Machines Lab 对它的概括是:SFT 是 off-policy + dense signal,RL 是 on-policy + sparse signal,而 OPD 试图结合两者,即on-policy + dense signal


1. OPD 的核心思想

传统蒸馏通常是:

Prompt → 教师模型生成标准答案 → 学生模型模仿教师答案

这属于off-policy distillation。问题是学生训练时看到的是教师轨迹,推理时却走自己的轨迹;一旦学生自己前几步走偏,后续上下文就偏离训练分布,容易出现 exposure bias。

OPD 改成:

Prompt → 学生模型自己生成答案 → 教师模型评价学生每一步 → 学生根据教师反馈更新

关键区别是:

http://www.jsqmd.com/news/805634/

相关文章:

  • 从数据中心视角聊token
  • EdgeRemover终极指南:三步轻松卸载Windows自带Edge浏览器,让你的系统更清爽
  • 实证论文破局关键:虎贲等考 AI 数据分析,零代码跑出期刊级结果
  • 如果用 句式容器的权重化和管道化 这样的机制,那是否每个 句子和每个短句的匹配都得弄一套【句式容器的权重化】的配置,有多少个句式和句子,就得多少套规则??
  • LangChain+FAISS 向量数据库搭建轻量化 RAG 应用
  • 终极指南:如何用Path of Building打造流放之路完美构筑方案
  • 一个普通人,写《凰标》挑战整个行业规则@凤凰标志
  • 基于ProseMirror与AI集成的现代化编辑器架构解析与实践
  • FastGithub:5分钟解决GitHub访问缓慢的终极方案
  • 当语音识别遇上方言和行业术语:如何让Vosk听懂你的“行话“
  • 算法将驱动一切:边缘AI智能体如何重塑智能系统
  • 抖音无水印下载神器:douyin-downloader完整指南,轻松保存高清视频
  • 【收藏级】2026年大模型系统化学习路线(小白/程序员必看),避开弯路快速上岸
  • AI编程如何学?OpenAI 亲自下场,19家顶级机构联手, 成立FDE公司#前端部署工程师
  • Figma UI 与 MCP 协议:用自然语言自动化设计工作流
  • FPGA雷达信号处理避坑指南:数字下变频(DDC)与脉冲压缩(PC)的截位、溢出与精度控制
  • RapidVideOCR终极指南:高效视频硬字幕提取与SRT生成完整方案
  • 终极浏览器广告拦截指南:5分钟掌握uBlock Origin高效设置
  • 抖音图片怎么去水印?2026实测去水印方法全整理,免费工具一并推荐
  • Flutter for OpenHarmony 学生错题本APP技术文章
  • CES之外的技术构想:从社交尴尬探测器到邮件生产力评估器
  • 基于Electron与本地LLM的桌面AI伙伴开发实战
  • 【最新 v2.7.1 版本】零基础搭建 OpenClaw 本地 AI 智能体 Windows 完整部署教程
  • 线路改造水泥电线杆选型与供应实测指南:耐腐蚀水泥电线杆、路灯水泥电线杆、通信水泥电线杆、高压水泥电线杆、高强度水泥电杆选择指南 - 优质品牌商家
  • 深度学习篇---支持向量机(SVM,Support Vector Machine)
  • 2026渗滤液消泡剂优质产品推荐榜:发酵消泡剂/工业消泡剂/有机硅消泡剂/有机硅消泡粉/油墨消泡剂/涂料消泡剂/选择指南 - 优质品牌商家
  • ComfyUI-Impact-Pack:AI图像细节增强的终极解决方案,让模糊人像瞬间清晰
  • PeakRDL:基于SystemRDL的寄存器自动化工具链解析与实践
  • 2026年5月新发布:郑州暑期托管专业之选,流碧托育以硬实力护航成长 - 2026年企业推荐榜
  • 2026全自动水泥发泡机可靠品牌推荐榜:发泡混凝土设备、水泥发泡施工机械、水泥发泡施工设备、水泥发泡机械设备、水泥发泡机设备选择指南 - 优质品牌商家