垂直领域小模型蒸馏:最佳实践指南
全景路线图
全景路线图:7阶段横向流水线与Gate标准
整个路线图分 7 个阶段,但精力分配并不平均。按经验,60% 的时间会花在阶段 0 和阶段 1—— 前者决定方向对不对,后者决定天花板有多高。剩下 40% 才是真正动手训练。把这个比例反过来,是大多数项目最终效果平平的直接原因。
阶段0:前置准备
阶段0:前置准备——领域边界、模型选型、评估体系
这个阶段一行代码不用写,但决定了后面几周的投入值不值。三件事必须做完:知道要蒸馏什么、选定用谁来教谁、建好评分的尺子。
把"领域"拆成子任务清单
所谓"做一个医疗/法律/金融小模型"是没法落地的描述,必须拆到子任务级别。比如医疗领域,合理的拆法是:症状问诊、鉴别诊断、用药建议、医学文献摘要;法律则是合同审查、法律咨询、判例检索、法规解读;金融有财报分析、风险评估、合规审查、市场解读。
一个经验数字:列出 10~30 个这样的具体子任务,每个子任务准备 2~3 条真实的输入示例。这份清单会直接决定后面合成数据的主题分布和评估集的构造,模糊不得。如果连这一步都写不出来,后面训练出什么是什么,没法评价。
学生和教师怎么选
开源模型迭代快到以季度为单位,点具体型号很容易过时——这里只讲选型维度,真到落地时去当下的 Open LLM Leaderboard、LMSYS Arena、或领域榜单上按这些维度筛一遍就行。
学生模型先定参数规模档位,通常落在三档:端侧部署或算力预算极低的场合,1.5B~4B档;大多数项目走7B~8B档,性价比最好;评估分数要榨到极致,上14B~32B档。档位确定后再在该档内挑具体型号,关注三件事:一看领域语言契合度,中文场景默认挑国产旗舰系列,英文和代码场景选北美主流系列;二看同一系列里是否有对应的教师规模(下面会解释为什么重要);三看开源许可证能不能覆盖你的商用场景。
教师的选择比学生更反直觉。2026 年 4 月清华 OPD 论文(arXiv:2604.13016)推翻了一个朴素直觉——更强的教师不一定更好用。他们发现蒸馏效果好不好,取决于两个条件同时成立:
- 思维模式一致:教师和学生的 top-k token 分布重叠率要高,同家族天然高于跨家族;
- 教师带来了新知识:单纯把模型规模放大、训练数据和学生没本质差别的教师没用;必须经过 RL 后训练、掌握了学生没掌握的能力。
落到选择上,排序大致是:同家族的 RL 后训练版本最稳(比如用同一系列里更大参数量的 Thinking / Reasoning 版教基础版);跨家族但经过 RL 训练的模型次之;Gemini 3.1 Pro、Claude Opus 这类闭源教师只能拿来生成阶段 1 的 Off-Policy 数据,做不了后面阶段 4 的 On-Policy 蒸馏——因为拿不到 logits。所以选学生的时候,顺带确认同系列存在一个够强、且经过 RL 后训练的更大模型,这个搭配决定了后面天花板有多高。
评估体系是地基
很多项目失败不是训练没做对,是连"现在到底好不好"都说不清楚。一套能用的评估至少有四层:
- 自动指标:领域特定的准确率,比如医疗问答 F1、代码 pass@k、法律条文匹配率,自己写脚本;
- LLM-as-Judge:用 Gemini 3.1 Pro / Claude 给输出打分,重点看有用性、事实性、安全性,工具用 OpenAI Evals 或 LM-Harness;
- 人工抽检:每训练完一轮,从验证集里抽 50~100 条送到标注平台人工看;
- 对比评测:学生 vs 教师的 head-to-head 盲测,用 Chatbot Arena 风格统计胜率。
评估集必须取自真实业务数据,合成数据来做评估是自欺欺人。准备 200~500 条高质量评估样本,覆盖所有子任务,这个数量是下限。
什么情况可以进入阶段 1
四件事全部就位才算完:子任务清单拉出来了(≥10 条、每条有真实示例)、学生和教师模型定了、评估脚本跑得通而且基座模型的基线分数存了档、算力到位(至少 4×A100-80G 或等效)。
如果评估集拿不到 100 条,或者子任务的定义还停留在"效果好"这种虚的层面,别继续往下走——所有后续评测结果都不可信,训练方向也会飘。
阶段1:数据工程
阶段1:数据工程——种子扩增、Best-of-N采样、温度分离、三层过滤
这个阶段要产出的东西是一份 5K~50K 条的高质量领域训练数据,覆盖所有子任务、多样性充分。整个流程分四步走——从种子扒起、让教师扩增、三层质量过滤、嵌入分布审计,每一步的门槛和常见坑都不一样,下面分别展开。
种子:从生产里扒 50~200 条
合成数据听起来很美好,但必须建立在真实种子上。种子的来源有明确的优先级:第一是生产日志——真实用户请求配上已经验证过的好回复,这是最值钱的;第二是领域文档——临床指南、法律判例、金融报告、技术手册里提取;第三才是专家标注——请领域专家针对典型场景手写 gold-standard 回复。
50~200 条真实种子够用了(Tian Pan 2026.03 给出的经验数字),因为这些种子后面会被教师扩增成几千条。但这里有个必须牢记的事实:种子数据的多样性一旦丢失,后面无论怎么合成都补不回来。10 条全部来自"医保咨询"的种子,扩增出来的 3000 条也只会是医保咨询的变体。种子这一步别偷懒。
让教师合成数据:用最少的调用榨出最多的价值
这一步的优化优先级清楚:Prompt 质量 > Best-of-N 采样 > 温度调优 > 多教师聚合。前两个必做,后两个锦上添花。下面展开。
生成策略怎么选(Scale AI 的结论):
- 种子很多但预算有限 →答案增强:拿已有 prompt 让教师生成多个回答(K=3~5),挑最好的;
- 种子和预算都中等 →问题改写 + 新问题生成:改写已有问题,再针对清单里还没覆盖的子任务生成新 prompt;
- 种子少、预算足 →大力生成新问题:让教师主动生成新的领域问题和回答,突破种子多样性天花板。
别只让教师写一次就收工。Best-of-N 采样是基础操作:每个 prompt 让教师生成 N=4~8 条候选(temperature=0.7~1.0),用验证器或打分器评分,只保留最高分的 1~2 条。
采样的时候挑问题有讲究。BOND(Google 2024)和 Brenndoerfer(2026.01)都指出,最值钱的是教师通过率落在20%~80%的问题——这是模型能力的边界带。通过率超过 80% 的问题太简单,学习信号弱,减少采样或直接剔除;低于 20% 的问题太难,采样效率极低,暂时搁置或降难度。
温度别全程一个值。很多人犯的错误就是从头到尾 temperature=0.7。正确做法是指令和答案分开控制:
- 生成新指令/新问题时用高温
T=0.9~1.0、top-p=0.95~0.99,鼓励创造性; - 生成回答/响应时用低温
T=0.3~0.7,甚至贪心解码,优先保证正确性; - 生成 CoT 推理链用中温
T=0.5~0.7,在推理多样性和正确性之间平衡。
一句话记住:问题用高温,答案用低温。
Prompt 决定了数据质量的天花板(Predibase Playbook 的核心结论)。下面这个结构基本能通用:
## System Prompt 你是一位{领域}专家。请针对以下问题给出详细、准确的回答。 要求: 1. 先给出逐步推理过程(思维链),再给出最终结论 2. 引用具体的{领域依据}(如法条编号/药品说明书/技术文档章节) 3. 如果存在不确定性,明确说明置信度 4. 如果问题超出你的能力范围,说"我不确定"而非编造 ## Few-shot 示例 [提供 2~3 个高质量的种子样本作为示范] ## 当前问题 {user_query}几个容易忽略的点:必须要求输出完整 CoT 推理链,不能只要最终答案;要加入领域特定约束,比如"引用具体法条"、“说明药物禁忌症”;few-shot 的 2~3 条从种子数据中随机采样(Self-Instruct 方法:8 条里混入 2 条已生成的,能提升多样性);明确允许模型说"我不确定",能减少幻觉的传播。
多样性要主动保障,不能指望它自己出现。一个反直觉的事实:1 万条聚集在 5 个主题的数据,效果约等于 50 条高质量数据。具体做法有几条:
- 主题配额——按子任务清单分配生成名额,每个子任务保底 N 条;
- 人设驱动——变换提问者视角,新手、专家、非母语者同一个问题问出来天然不一样;
- 进化指令(Evol-Instruct)——对基础指令做"突变":加约束、加推理步数、加上下文复杂度;
- 模板轮换——准备 5 个以上的 prompt 模板交替用,避免模板指纹;
- MinHash 去重——Jaccard 相似度阈值 0.7~0.8,砍掉语义重复。
自检标准:如果超过 5% 的样本包含相同短语模式,说明模板痕迹过重,加模板。
多教师聚合是可选项,预算充足的话能再榨一点效果。PerSyn(2025.10)的路由器策略是这样的:轻量路由器根据"输出质量 + 学生可学习性"联合评分,把每个 prompt 分配给最适合的教师。效果是指令调优 +3.18%,数学推理 +5.57%,比所有教师都跑一遍更高效。没有路由器的话,让 2~3 个教师各生成一条,多数投票或评分选最优就行。
质量过滤:这一步做不好,前面白干
1000 条验证过的样本 > 10000 条含噪声的样本——这不是鸡汤,是一线工程师反复踩过的坑。
过滤分三层叠加:
- 规则层先过一遍:长度检查、格式验证、正则匹配,把截断、格式错误、教师直接拒答的样本清掉;
- 模型层再过一次:拿另一个 LLM 给每条打 1~5 分,3 分及以下丢弃,专治事实错误、逻辑不通、不相关;
- 去重层收尾:嵌入相似度 > 0.95 的直接合并,去掉近似重复。
除了这三层通用过滤,每个领域还要加自己的"业务过滤器":医疗要交叉检查药物名和剂量是否在标准范围内;法律要验证引用的法条编号真实存在;代码直接跑单元测试和编译;金融则要校验数字和日期的一致性。这些规则能拦住大量 LLM 打分看不出来的错误。
审计一下分布,别让模型盲训
过滤完了不算数,还要回头审视数据的分布长什么样。ICML 2025 的 DCScore 研究给了一个很有说服力的结论:嵌入空间的覆盖度,比数据集大小更能预测微调性能。
具体做三件事:把所有样本的 embedding 算出来可视化一下;按子任务/主题聚类,确保每个簇都有足够样本;检查难度分布,防止堆满简单问题把模型喂成"复读机"。
数据溯源也得做——给每条数据打上{source: human/synthetic, teacher: model_name, version: v1, task: subtask_name}这样的标签,后面防模型坍塌要靠它。
什么时候可以进阶段 2
总量至少 5K 条(追求质量的话 5K 足矣,不必盲目凑 50K);子任务覆盖率 ≥80%(每个子任务都要有数据);质量过滤后的存活率落在40%~70%之间,太高说明过滤太松,太低说明教师质量有问题;嵌入空间覆盖度检查没有明显空白;保留了 ≥10% 的真实人工数据作为锚点(阶段 6 防坍塌用得上)。
有三个明确的红灯必须停下来处理:
- 过滤后存活率 < 30%:教师根本不适合这个领域,换教师,别在数据工程上继续投入;
- 某个子任务凑不出 50 条:那个子任务的效果注定不可靠,要么补种子要么先砍掉;
- 去重后数据缩减 > 40%:生成多样性不够,回去调 prompt 或升温度。
阶段2:SFT 热身蒸馏
阶段2:SFT热身蒸馏——两阶段课程学习与思维模式差距缩小
这个阶段的作用有点像"冷启动前把发动机先热一下":跳过它直接做阶段 4 的 On-Policy 蒸馏不是不行,但效果会差一大截。清华 OPD 论文(2026.04)跑过完整对比——用 200K 教师 rollout 先做一轮 SFT 预热,再做 On-Policy 蒸馏,始终优于直接 On-Policy。背后的机理并不神秘:SFT 缩小了初始的思维模式差距,拉高了学生和教师的 top-k token 重叠率,后续的蒸馏信号才有作用。
训练配置一览
这些参数是从若干个 7B~32B 量级项目里抽出来的中位数,可以当默认值直接套:
- 学习率
1e-5~5e-5,用 LoRA 可以适当往上调到1e-4; - 调度用 Cosine with warmup,warmup 占比 3%~10%;
- Epoch 先设 2~5 轮,宁可先少跑再按验证集 loss 往上加;
- Batch size 开到 GPU 不 OOM 的上限,有效 batch ≥ 32;
- 最大序列长度 4096~8192,根据实际领域数据长度定;
- 微调方式 LoRA(rank 64~128、alpha 128~256)是默认选项,只有要部署单一模型并且追求极致效果时才上全量微调。
数据按"课程学习"排
Orca-2 验证过的渐进式策略在垂直领域也好使:前 50% 训练步用通用 + 领域 1:1 混合,让模型既吸收领域知识又保留通用能力;后 50% 切到纯领域高质量数据,深度适配。两阶段中间无需任何断点,continue 训练即可。
盯三件事
训练过程里不用盯所有指标,重点看三个:loss 曲线要平稳下降、不能剧烈跳动;每 500 步在验证集上跑一次评估;只要验证集 loss 开始抬头就立刻停——这是最直接的过拟合信号,不要指望它自己掉下来。
出阶段的标准
硬指标有四个,都要达成:领域评测集准确率 ≥ 教师的70%;LLM-as-Judge 评分相比基座提升 ≥20%;抽检 50 条人工看一遍,没有明显的格式崩坏、乱码或推理链断裂;验证集 loss 已收敛(连续 500 步变化 < 1%)。
三种情况要当红灯处理:评测不到教师的 50%——大概率是阶段 1 数据质量有问题,不要硬扛,回去重做;输出大面积重复——去重没做够;CoT 看起来像推理但逻辑是通不过的——教师数据本身质量就不够,换教师或补 BoN 采样。
阶段3:质量筛选 + 偏好优化
阶段3:质量筛选+偏好优化——RFT拒绝采样与DPO偏好训练
阶段 2 让学生"大致会做",这个阶段要让它"挑得出好答案"。核心思路是利用对比信号——不光告诉模型什么对,也告诉它什么不够好。两条技术轨道:RFT 做正样本筛选,DPO 做偏好训练。
RFT:让学生自己生,自己选
RFT(Rejection Fine-Tuning)流程很直白:让 SFT 之后的学生对每个 prompt 生成 K=8~32 条响应,用验证器、教师模型或规则给每条打分,只保留得分最高的 1~2 条,再拿这批筛选后的数据做一轮 SFT。
验证器怎么选取决于任务性质:有标准答案的场景(数学、代码、选择题)直接上规则验证器,看正确率或编译通过率;开放生成场景就用教师模型打分,推荐 5 分制,只留 4 分及以上。
DPO:在 RFT 的基础上加对比
RFT 训完手里就有天然的对比对了——同一个 prompt 的最高分响应作 chosen、最低分的作 rejected,这批数据直接送进 DPO。
几个参数特别敏感:β 从 0.1 起调(0.1~0.5 是合理范围),越大越保守;学习率5e-7~5e-6,比 SFT 低一个量级;1~3 个 epoch 就够了,DPO 非常容易过拟合,少即是多;chosen 和 rejected 的分数差要 ≥ 2 分(5 分制下),差距太小 DPO 学不到东西。
一条铁规:SFT 和后续 RL 的数据绝不重叠
这是 2026 年 4 月一个重要的新发现(arXiv:2604.13515)——SFT 阶段和后续 RL/GRPO 阶段用的数据必须不相交。论文给出的实验数据相当硬:100% 重叠会让 GRPO 完全冗余,0% 重叠效果最好。
所以从数据集构建那一刻起,就要把 prompt 分成不相交的两个池:SFT 池和 RL 池。这件事事后没法补救——阶段 1 收尾的时候就要分好。
通过条件与回头线
要进阶段 4,需要同时满足:领域评测准确率 ≥ 教师的80%;与 SFT-only 版本的 head-to-head 胜率 ≥55%;人工抽检事实错误率 < 5%;没有"奖励 hacking"的征兆(输出突然拉长、重复性讨好话术变多)。
有三种迹象说明要回头:DPO 之后评测分数反而掉了——chosen/rejected 本身质量不行,或者 β 开得太大;输出变得过度保守、频繁拒答——β 太大,或者 rejected 里混进了本该合理的回答;采样 32 次全部错误的 prompt 超过 30%——任务已经超出学生当前能力,降低难度或补数据。
阶段4:On-Policy 精调
阶段4:On-Policy精调——三步闭环与性能对比
这是 2025Q4 到 2026Q1 最重要的一个阶段,也是近半年效果提升最大的一步。如果说前面几步都在对着教师的示范照抄,这一步开始要让学生在自己的分布上学习,消除暴露偏差(exposure bias)。
Thinking Machines Lab(2025.10)跑过一组对比数据,很能说明问题:
| 方法 | AIME’24 | GPU 小时 | 相对 SFT 成本 |
|---|---|---|---|
| Off-Policy SFT | 55.0% | 基准 | 1× |
| + RL (GRPO) | 67.6% | 17,920 | ≈ 1× |
| + On-Policy Distillation | 74.4% | 1,800 | 降低 10× |
性能最高、成本最低——这是为什么称它为范式突破。
能不能做,先看三个前置条件
做 On-Policy 蒸馏不是想做就能做:教师模型必须开源,因为要拿 logits;教师要能在线推理,也就是说 GPU 得同时跑教师和学生;以及学生必须先过阶段 2 的 SFT 热身(前面说过,跳过热身的 On-Policy 效果会差一大截)。闭源的 Gemini 3.1 Pro / Claude Opus 这种只能用在阶段 1 的数据生成,走不到这里。
三步闭环
核心算法就三步,反复循环:
Step 1: 学生从当前策略采样生成响应(On-Policy 数据) Step 2: 教师在学生的每个 token 位置计算 logits(密集反馈) Step 3: 学生用 Reverse KL 作为损失更新策略 → 回到 Step 1迭代 3~10 轮,监控 top-k 重叠率,它不再上涨就可以停了。
超参数全集中在这几个
这几个参数相互咬合,改动时要谨慎:
- KL 方向用 Reverse KL(MiniLLM, ICLR 2024),不是 Forward KL;
- 响应长度控制在 3K~7K tokens——清华 OPD 论文的实测结论:太短信号不够,太长会触发奖励退化;
- Top-k 设 Sampled-token 即可,无需 full-vocabulary,但要避免 Top-1;
- 提示模板对齐教师训练时的模板——这个看似细节的点,单独切一下就能明显涨分;
- 混入 20%~30% 分布外提示,防止熵崩塌;
- 学习率
1e-6~5e-6,比 SFT 还低; - 迭代 3~10 轮,重叠率不涨就停。
盯仪表盘
训练过程里有三个仪表必须常看:Top-k 重叠率要从初始的 ~70% 稳步上升到 ~90%,停滞不前就是出了问题;熵差距(学生与教师)应当逐步缩小;领域评测分数持续上升——原地踏步甚至下降说明方向不对。
工程落地:以 veRL 为例
开源社区这两年冒出来的 RL / 蒸馏框架不少,TRL、OpenRLHF、NeMo-Aligner、veRL 这些都能搭出类似流程,各家强项不同,选型见仁见智。下面拿veRL(字节跳动开源)做一个具体例子——它在 2026 年 Q1 同时支持 SFT / On-Policy 蒸馏 / GRPO / DPO,栈比较统一,适合从头拉通一条流水线,其他框架的写法大体类似,可以照着映射。
veRL 的 On-Policy 蒸馏数据通路是这样的:
Student Rollout → 生成响应 ↓ AsyncTeacherLLMServerManager(异步教师服务管理) ↓ _unpad_teacher_inputs → 去除 padding,提取有效序列 ↓ GlobalRequestLoadBalancer → 分发到教师模型副本(负载均衡) ↓ 教师计算 log probabilities / top-k 分布 ↓ _pad_teacher_outputs → 对齐回学生批次格式 ↓ 蒸馏损失 + 策略梯度损失 → 学生参数更新上手要改的几个配置,参考值如下:distillation.loss_mode用forward_kl_topk(另外还有 k1、k3 两种模式,按需试);教师部署建议用standalone模式,独立 GPU 免得和学生抢资源;推理后端 vLLM 或 SGLang 都行,veRL 原生支持;不需要教师反馈的步骤用sleep()/wake_up()释放显存;分布式后端 FSDP 最简单够用,超大规模再上 Megatron。
快速启动一条命令就行:
# FSDP 模式(推荐) bash examples/on_policy_distillation_trainer/run_qwen_gsm8k.sh # 关键参数覆盖 python -m verl.trainer.main \ distillation.enabled=True \ distillation.loss_mode="forward_kl_topk" \ distillation.teacher_model.path="Qwen/Qwen3-32B" \ actor.model.path="Qwen/Qwen3-8B"显存紧的话有几个省钱技巧:教师用 INT8/INT4 量化(对 logits 的影响经验证很小);开投机式蒸馏——学生生成做草稿、教师并行验证,能显著加速;配合sleep()/wake_up()在纯学生更新阶段把教师显存让出来。
何时进阶段 5(或者直接进阶段 6)
通过标准四条:领域评测 ≥ 教师的85%~90%;top-k 重叠率 ≥85%;与阶段 3 版本的 head-to-head 胜率 ≥60%;抽检推理链的逻辑连贯率 ≥ 90%。
三种危险信号别忽略:前几轮重叠率就停滞——教师和学生思维模式不兼容,换教师;训练到后期性能突然崩塌——长轨迹的奖励退化,把响应长度上限砍下来;熵一路掉到接近 0——模型退化成确定性输出了,加大分布外提示比例救一下。
阶段5:RL 探索(可选)
阶段5:RL探索——GRPO流程与可验证奖励
这一步打了括号——大多数项目其实不需要。它的存在价值是一句话:在教师能力边界之外继续探索,突破蒸馏天花板。要满足两个条件才值得做:领域里有可验证的奖励信号(数学正确性、代码能否跑通、SQL 执行结果、法条是否准确之类),并且阶段 4 做完后学生已经逼近教师上限、继续蒸馏榨不出东西了。任意一条不满足,跳过这一阶段直接进阶段 6 是更务实的选择。
GRPO 怎么配
GRPO 的套路是每个 prompt 生成一组响应做组内比较,关键参数就几个:
- 采样数 K = 8~16,每个 prompt 生成 K 条用于组内排名;
- 学习率
1e-6~5e-6,和阶段 4 差不多; - KL 惩罚系数 0.01~0.05——开太大会抑制探索,开太小直接 reward hacking;
- 数据来源必须是与 SFT 不重叠的提示池,呼应阶段 3 的那条铁规;
- 奖励设计上优先规则验证 + 格式奖励,避免纯 LLM 打分做奖励——LLM 奖励几乎必被 hack。
奖励函数不同领域怎么落
可验证奖励是这一阶段的命脉,下面给几个领域的参考实现:
- 代码:pass@k,直接跑单元测试;
- 数学:正则把最终答案抠出来,和标准答案比;
- SQL:沙箱数据库里执行,比较结果集;
- 法律:正则提取法条编号,查法律数据库验证;
- 医疗:诊断+用药合规性,做禁忌症和剂量范围的规则检查。
前沿方案:RLAD 融教师进 RL
2026 年的一个新方向叫RLAD(Reinforcement-Aware Knowledge Distillation),做法和之前的"GRPO + KL 正则"完全不同——它把教师信息融进了 RL 的重要性采样比率里。Qwen3-0.6B 的逻辑推理任务上 GRPO 是 0.76,换 RLAD 直接涨到0.94,而训练开销只多 12%。如果手头的任务对质量极度敏感,这个值得试。
进阶的标准和失效信号
三条硬标准:可验证任务准确率比阶段 4 再涨3~5pp;没有 reward hacking(输出长度、格式没有异常波动);人工抽检里没有"正确但没用"这种讨好式回答。
三种失效模式要马上回头:奖励分一路上涨但评测分不动——典型 reward hacking;输出多样性急剧下降——KL 惩罚不够;loss 剧烈跳动、训练不稳定——学习率开大了,或者 K 太小没形成足够的组内对比。
阶段6:持续进化闭环
阶段6:持续进化闭环——生产数据飞轮与防坍塌铁律
模型上线那一刻不是项目结束,恰恰是最有价值的数据源刚刚打开。阶段 6 要搭的是一套自动化飞轮:生产数据源源不断流入,经过过滤和再训练,再回到生产环境。做得好,模型效果会随时间持续上升;做得不好,半年后就会看到逐代退化。
生产数据怎么收
推理服务得全量记录——所有请求和响应;用户反馈信号要打通,点赞点踩、用户的编辑修改、最终是否采纳,都是金矿;每一条数据必须打溯源标签,明确来自人工标注、合成数据还是生产真实数据,这在后面防坍塌时是生死线。
飞轮的节奏
按频率分层处理,不同节奏做不同粒度的事:
| 频率 | 做什么 |
|---|---|
| 每日 | 收集 + 规则过滤,全自动 |
| 每周 | 质量打分 + 抽样人工审核 |
| 每月 | 用新数据做一轮增量训练(SFT 或 On-Policy) |
| 每季度 | 全量重训,从阶段 2 重走一遍 |
防坍塌的铁律(不能破)
Nature 发表过的研究已经定性:模型只在自己生成的数据上训练,性能会逐代退化。所以这一阶段有几条硬规则:
- 每轮训练必须包含不缩减的真实人工数据锚点;
- 合成数据在训练集里的占比上限建议 ≤70%;
- 严格追踪数据溯源,能区分人工 / 合成 / 各版本教师;
- 绝不允许合成数据完全替代人工标注——这一条没有例外。
模型变强之后:去教师化
当学生模型在领域评测上已经和教师难分高下,可以转入 SPIN 风格的自博弈:模型自己生成,再学会区分"自己的输出"和"人工标注",迭代往下跑。进一步还可以配合 OPSD(2025)的"特权信息"策略——训练时把正确答案当辅助信号拉高生成质量,推理时把特权信息去掉。这条路等于主动摆脱对教师的依赖。
上线策略别一把梭
线上更新的容错空间很小,有三种保守但稳妥的部署方式:
- 影子模式:新旧模型并行推理,比较差异但不影响最终用户;
- 金丝雀发布:1% → 10% → 50% → 100%,每一步看关键指标再决定是否往下推;
- 混合路由:简单请求走新的小模型,复杂请求降级到大模型兜底。
持续运营要看什么
每月增量训练完的新版本,评测分数不能低于上一版;生产环境的用户满意度(采纳率、点赞率)保持或上升;飞轮的自动化流程稳定运行无人干预;用 entropy 监控模型输出多样性,防止逐步塌成复读机。四条同时达标才算"在进化",任何一条出问题都要立刻定位。
写在最后
蒸馏不是一个项目,是一套持续运营的系统。数据质量永远比数据数量重要,教师选择永远比算法选择重要,评估体系永远比训练技巧重要。把 60% 的时间花在阶段 0 和阶段 1,剩下的顺着流程走就行。
学AI大模型的正确顺序,千万不要搞错了
🤔2026年AI风口已来!各行各业的AI渗透肉眼可见,超多公司要么转型做AI相关产品,要么高薪挖AI技术人才,机遇直接摆在眼前!
有往AI方向发展,或者本身有后端编程基础的朋友,直接冲AI大模型应用开发转岗超合适!
就算暂时不打算转岗,了解大模型、RAG、Prompt、Agent这些热门概念,能上手做简单项目,也绝对是求职加分王🔋
📝给大家整理了超全最新的AI大模型应用开发学习清单和资料,手把手帮你快速入门!👇👇
学习路线:
✅大模型基础认知—大模型核心原理、发展历程、主流模型(GPT、文心一言等)特点解析
✅核心技术模块—RAG检索增强生成、Prompt工程实战、Agent智能体开发逻辑
✅开发基础能力—Python进阶、API接口调用、大模型开发框架(LangChain等)实操
✅应用场景开发—智能问答系统、企业知识库、AIGC内容生成工具、行业定制化大模型应用
✅项目落地流程—需求拆解、技术选型、模型调优、测试上线、运维迭代
✅面试求职冲刺—岗位JD解析、简历AI项目包装、高频面试题汇总、模拟面经
以上6大模块,看似清晰好上手,实则每个部分都有扎实的核心内容需要吃透!
我把大模型的学习全流程已经整理📚好了!抓住AI时代风口,轻松解锁职业新可能,希望大家都能把握机遇,实现薪资/职业跃迁~
