当前位置：首页 > news >正文

垂直领域小模型蒸馏：最佳实践指南

news 2026/6/7 22:24:53

全景路线图

全景路线图：7阶段横向流水线与Gate标准

整个路线图分 7 个阶段，但精力分配并不平均。按经验，60% 的时间会花在阶段 0 和阶段 1—— 前者决定方向对不对，后者决定天花板有多高。剩下 40% 才是真正动手训练。把这个比例反过来，是大多数项目最终效果平平的直接原因。

阶段0：前置准备

阶段0：前置准备——领域边界、模型选型、评估体系

这个阶段一行代码不用写，但决定了后面几周的投入值不值。三件事必须做完：知道要蒸馏什么、选定用谁来教谁、建好评分的尺子。

把"领域"拆成子任务清单

所谓"做一个医疗/法律/金融小模型"是没法落地的描述，必须拆到子任务级别。比如医疗领域，合理的拆法是：症状问诊、鉴别诊断、用药建议、医学文献摘要；法律则是合同审查、法律咨询、判例检索、法规解读；金融有财报分析、风险评估、合规审查、市场解读。

一个经验数字：列出 10~30 个这样的具体子任务，每个子任务准备 2~3 条真实的输入示例。这份清单会直接决定后面合成数据的主题分布和评估集的构造，模糊不得。如果连这一步都写不出来，后面训练出什么是什么，没法评价。

学生和教师怎么选

开源模型迭代快到以季度为单位，点具体型号很容易过时——这里只讲选型维度，真到落地时去当下的 Open LLM Leaderboard、LMSYS Arena、或领域榜单上按这些维度筛一遍就行。

学生模型先定参数规模档位，通常落在三档：端侧部署或算力预算极低的场合，1.5B~4B档；大多数项目走7B~8B档，性价比最好；评估分数要榨到极致，上14B~32B档。档位确定后再在该档内挑具体型号，关注三件事：一看领域语言契合度，中文场景默认挑国产旗舰系列，英文和代码场景选北美主流系列；二看同一系列里是否有对应的教师规模（下面会解释为什么重要）；三看开源许可证能不能覆盖你的商用场景。

教师的选择比学生更反直觉。2026 年 4 月清华 OPD 论文（arXiv:2604.13016）推翻了一个朴素直觉——更强的教师不一定更好用。他们发现蒸馏效果好不好，取决于两个条件同时成立：

思维模式一致：教师和学生的 top-k token 分布重叠率要高，同家族天然高于跨家族；
教师带来了新知识：单纯把模型规模放大、训练数据和学生没本质差别的教师没用；必须经过 RL 后训练、掌握了学生没掌握的能力。

落到选择上，排序大致是：同家族的 RL 后训练版本最稳（比如用同一系列里更大参数量的 Thinking / Reasoning 版教基础版）；跨家族但经过 RL 训练的模型次之；Gemini 3.1 Pro、Claude Opus 这类闭源教师只能拿来生成阶段 1 的 Off-Policy 数据，做不了后面阶段 4 的 On-Policy 蒸馏——因为拿不到 logits。所以选学生的时候，顺带确认同系列存在一个够强、且经过 RL 后训练的更大模型，这个搭配决定了后面天花板有多高。

评估体系是地基

很多项目失败不是训练没做对，是连"现在到底好不好"都说不清楚。一套能用的评估至少有四层：

自动指标：领域特定的准确率，比如医疗问答 F1、代码 pass@k、法律条文匹配率，自己写脚本；
LLM-as-Judge：用 Gemini 3.1 Pro / Claude 给输出打分，重点看有用性、事实性、安全性，工具用 OpenAI Evals 或 LM-Harness；
人工抽检：每训练完一轮，从验证集里抽 50~100 条送到标注平台人工看；
对比评测：学生 vs 教师的 head-to-head 盲测，用 Chatbot Arena 风格统计胜率。

评估集必须取自真实业务数据，合成数据来做评估是自欺欺人。准备 200~500 条高质量评估样本，覆盖所有子任务，这个数量是下限。

什么情况可以进入阶段 1

四件事全部就位才算完：子任务清单拉出来了（≥10 条、每条有真实示例）、学生和教师模型定了、评估脚本跑得通而且基座模型的基线分数存了档、算力到位（至少 4×A100-80G 或等效）。

如果评估集拿不到 100 条，或者子任务的定义还停留在"效果好"这种虚的层面，别继续往下走——所有后续评测结果都不可信，训练方向也会飘。

阶段1：数据工程

阶段1：数据工程——种子扩增、Best-of-N采样、温度分离、三层过滤

这个阶段要产出的东西是一份 5K~50K 条的高质量领域训练数据，覆盖所有子任务、多样性充分。整个流程分四步走——从种子扒起、让教师扩增、三层质量过滤、嵌入分布审计，每一步的门槛和常见坑都不一样，下面分别展开。

种子：从生产里扒 50~200 条

合成数据听起来很美好，但必须建立在真实种子上。种子的来源有明确的优先级：第一是生产日志——真实用户请求配上已经验证过的好回复，这是最值钱的；第二是领域文档——临床指南、法律判例、金融报告、技术手册里提取；第三才是专家标注——请领域专家针对典型场景手写 gold-standard 回复。

50~200 条真实种子够用了（Tian Pan 2026.03 给出的经验数字），因为这些种子后面会被教师扩增成几千条。但这里有个必须牢记的事实：种子数据的多样性一旦丢失，后面无论怎么合成都补不回来。10 条全部来自"医保咨询"的种子，扩增出来的 3000 条也只会是医保咨询的变体。种子这一步别偷懒。

让教师合成数据：用最少的调用榨出最多的价值

这一步的优化优先级清楚：Prompt 质量 > Best-of-N 采样 > 温度调优 > 多教师聚合。前两个必做，后两个锦上添花。下面展开。

生成策略怎么选（Scale AI 的结论）：

种子很多但预算有限 →答案增强：拿已有 prompt 让教师生成多个回答（K=3~5），挑最好的；
种子和预算都中等 →问题改写 + 新问题生成：改写已有问题，再针对清单里还没覆盖的子任务生成新 prompt；
种子少、预算足 →大力生成新问题：让教师主动生成新的领域问题和回答，突破种子多样性天花板。

别只让教师写一次就收工。Best-of-N 采样是基础操作：每个 prompt 让教师生成 N=4~8 条候选（temperature=0.7~1.0），用验证器或打分器评分，只保留最高分的 1~2 条。

采样的时候挑问题有讲究。BOND（Google 2024）和 Brenndoerfer（2026.01）都指出，最值钱的是教师通过率落在20%~80%的问题——这是模型能力的边界带。通过率超过 80% 的问题太简单，学习信号弱，减少采样或直接剔除；低于 20% 的问题太难，采样效率极低，暂时搁置或降难度。

温度别全程一个值。很多人犯的错误就是从头到尾 temperature=0.7。正确做法是指令和答案分开控制：

生成新指令/新问题时用高温T=0.9~1.0、top-p=0.95~0.99，鼓励创造性；
生成回答/响应时用低温T=0.3~0.7，甚至贪心解码，优先保证正确性；
生成 CoT 推理链用中温T=0.5~0.7，在推理多样性和正确性之间平衡。

一句话记住：问题用高温，答案用低温。

Prompt 决定了数据质量的天花板（Predibase Playbook 的核心结论）。下面这个结构基本能通用：

## System Prompt 你是一位{领域}专家。请针对以下问题给出详细、准确的回答。 要求： 1. 先给出逐步推理过程（思维链），再给出最终结论 2. 引用具体的{领域依据}（如法条编号/药品说明书/技术文档章节） 3. 如果存在不确定性，明确说明置信度 4. 如果问题超出你的能力范围，说"我不确定"而非编造 ## Few-shot 示例 [提供 2~3 个高质量的种子样本作为示范] ## 当前问题 {user_query}

几个容易忽略的点：必须要求输出完整 CoT 推理链，不能只要最终答案；要加入领域特定约束，比如"引用具体法条"、“说明药物禁忌症”；few-shot 的 2~3 条从种子数据中随机采样（Self-Instruct 方法：8 条里混入 2 条已生成的，能提升多样性）；明确允许模型说"我不确定"，能减少幻觉的传播。

多样性要主动保障，不能指望它自己出现。一个反直觉的事实：1 万条聚集在 5 个主题的数据，效果约等于 50 条高质量数据。具体做法有几条：

主题配额——按子任务清单分配生成名额，每个子任务保底 N 条；
人设驱动——变换提问者视角，新手、专家、非母语者同一个问题问出来天然不一样；
进化指令（Evol-Instruct）——对基础指令做"突变"：加约束、加推理步数、加上下文复杂度；
模板轮换——准备 5 个以上的 prompt 模板交替用，避免模板指纹；
MinHash 去重——Jaccard 相似度阈值 0.7~0.8，砍掉语义重复。

自检标准：如果超过 5% 的样本包含相同短语模式，说明模板痕迹过重，加模板。

多教师聚合是可选项，预算充足的话能再榨一点效果。PerSyn（2025.10）的路由器策略是这样的：轻量路由器根据"输出质量 + 学生可学习性"联合评分，把每个 prompt 分配给最适合的教师。效果是指令调优 +3.18%，数学推理 +5.57%，比所有教师都跑一遍更高效。没有路由器的话，让 2~3 个教师各生成一条，多数投票或评分选最优就行。

质量过滤：这一步做不好，前面白干

1000 条验证过的样本 > 10000 条含噪声的样本——这不是鸡汤，是一线工程师反复踩过的坑。

过滤分三层叠加：

规则层先过一遍：长度检查、格式验证、正则匹配，把截断、格式错误、教师直接拒答的样本清掉；
模型层再过一次：拿另一个 LLM 给每条打 1~5 分，3 分及以下丢弃，专治事实错误、逻辑不通、不相关；
去重层收尾：嵌入相似度 > 0.95 的直接合并，去掉近似重复。

除了这三层通用过滤，每个领域还要加自己的"业务过滤器"：医疗要交叉检查药物名和剂量是否在标准范围内；法律要验证引用的法条编号真实存在；代码直接跑单元测试和编译；金融则要校验数字和日期的一致性。这些规则能拦住大量 LLM 打分看不出来的错误。

审计一下分布，别让模型盲训

过滤完了不算数，还要回头审视数据的分布长什么样。ICML 2025 的 DCScore 研究给了一个很有说服力的结论：嵌入空间的覆盖度，比数据集大小更能预测微调性能。

具体做三件事：把所有样本的 embedding 算出来可视化一下；按子任务/主题聚类，确保每个簇都有足够样本；检查难度分布，防止堆满简单问题把模型喂成"复读机"。

数据溯源也得做——给每条数据打上{source: human/synthetic, teacher: model_name, version: v1, task: subtask_name}这样的标签，后面防模型坍塌要靠它。

什么时候可以进阶段 2

总量至少 5K 条（追求质量的话 5K 足矣，不必盲目凑 50K）；子任务覆盖率 ≥80%（每个子任务都要有数据）；质量过滤后的存活率落在40%~70%之间，太高说明过滤太松，太低说明教师质量有问题；嵌入空间覆盖度检查没有明显空白；保留了 ≥10% 的真实人工数据作为锚点（阶段 6 防坍塌用得上）。

有三个明确的红灯必须停下来处理：

过滤后存活率 < 30%：教师根本不适合这个领域，换教师，别在数据工程上继续投入；
某个子任务凑不出 50 条：那个子任务的效果注定不可靠，要么补种子要么先砍掉；
去重后数据缩减 > 40%：生成多样性不够，回去调 prompt 或升温度。

阶段2：SFT 热身蒸馏

阶段2：SFT热身蒸馏——两阶段课程学习与思维模式差距缩小

这个阶段的作用有点像"冷启动前把发动机先热一下"：跳过它直接做阶段 4 的 On-Policy 蒸馏不是不行，但效果会差一大截。清华 OPD 论文（2026.04）跑过完整对比——用 200K 教师 rollout 先做一轮 SFT 预热，再做 On-Policy 蒸馏，始终优于直接 On-Policy。背后的机理并不神秘：SFT 缩小了初始的思维模式差距，拉高了学生和教师的 top-k token 重叠率，后续的蒸馏信号才有作用。

训练配置一览

这些参数是从若干个 7B~32B 量级项目里抽出来的中位数，可以当默认值直接套：

学习率1e-5~5e-5，用 LoRA 可以适当往上调到1e-4；
调度用 Cosine with warmup，warmup 占比 3%~10%；
Epoch 先设 2~5 轮，宁可先少跑再按验证集 loss 往上加；
Batch size 开到 GPU 不 OOM 的上限，有效 batch ≥ 32；
最大序列长度 4096~8192，根据实际领域数据长度定；
微调方式 LoRA（rank 64~128、alpha 128~256）是默认选项，只有要部署单一模型并且追求极致效果时才上全量微调。

数据按"课程学习"排

Orca-2 验证过的渐进式策略在垂直领域也好使：前 50% 训练步用通用 + 领域 1:1 混合，让模型既吸收领域知识又保留通用能力；后 50% 切到纯领域高质量数据，深度适配。两阶段中间无需任何断点，continue 训练即可。

盯三件事

训练过程里不用盯所有指标，重点看三个：loss 曲线要平稳下降、不能剧烈跳动；每 500 步在验证集上跑一次评估；只要验证集 loss 开始抬头就立刻停——这是最直接的过拟合信号，不要指望它自己掉下来。

出阶段的标准

硬指标有四个，都要达成：领域评测集准确率 ≥ 教师的70%；LLM-as-Judge 评分相比基座提升 ≥20%；抽检 50 条人工看一遍，没有明显的格式崩坏、乱码或推理链断裂；验证集 loss 已收敛（连续 500 步变化 < 1%）。

三种情况要当红灯处理：评测不到教师的 50%——大概率是阶段 1 数据质量有问题，不要硬扛，回去重做；输出大面积重复——去重没做够；CoT 看起来像推理但逻辑是通不过的——教师数据本身质量就不够，换教师或补 BoN 采样。

阶段3：质量筛选 + 偏好优化

阶段3：质量筛选+偏好优化——RFT拒绝采样与DPO偏好训练

阶段 2 让学生"大致会做"，这个阶段要让它"挑得出好答案"。核心思路是利用对比信号——不光告诉模型什么对，也告诉它什么不够好。两条技术轨道：RFT 做正样本筛选，DPO 做偏好训练。

RFT：让学生自己生，自己选

RFT（Rejection Fine-Tuning）流程很直白：让 SFT 之后的学生对每个 prompt 生成 K=8~32 条响应，用验证器、教师模型或规则给每条打分，只保留得分最高的 1~2 条，再拿这批筛选后的数据做一轮 SFT。

验证器怎么选取决于任务性质：有标准答案的场景（数学、代码、选择题）直接上规则验证器，看正确率或编译通过率；开放生成场景就用教师模型打分，推荐 5 分制，只留 4 分及以上。

DPO：在 RFT 的基础上加对比

RFT 训完手里就有天然的对比对了——同一个 prompt 的最高分响应作 chosen、最低分的作 rejected，这批数据直接送进 DPO。

几个参数特别敏感：β 从 0.1 起调（0.1~0.5 是合理范围），越大越保守；学习率5e-7~5e-6，比 SFT 低一个量级；1~3 个 epoch 就够了，DPO 非常容易过拟合，少即是多；chosen 和 rejected 的分数差要 ≥ 2 分（5 分制下），差距太小 DPO 学不到东西。

一条铁规：SFT 和后续 RL 的数据绝不重叠

这是 2026 年 4 月一个重要的新发现（arXiv:2604.13515）——SFT 阶段和后续 RL/GRPO 阶段用的数据必须不相交。论文给出的实验数据相当硬：100% 重叠会让 GRPO 完全冗余，0% 重叠效果最好。

所以从数据集构建那一刻起，就要把 prompt 分成不相交的两个池：SFT 池和 RL 池。这件事事后没法补救——阶段 1 收尾的时候就要分好。

通过条件与回头线

要进阶段 4，需要同时满足：领域评测准确率 ≥ 教师的80%；与 SFT-only 版本的 head-to-head 胜率 ≥55%；人工抽检事实错误率 < 5%；没有"奖励 hacking"的征兆（输出突然拉长、重复性讨好话术变多）。

有三种迹象说明要回头：DPO 之后评测分数反而掉了——chosen/rejected 本身质量不行，或者 β 开得太大；输出变得过度保守、频繁拒答——β 太大，或者 rejected 里混进了本该合理的回答；采样 32 次全部错误的 prompt 超过 30%——任务已经超出学生当前能力，降低难度或补数据。

阶段4：On-Policy 精调

阶段4：On-Policy精调——三步闭环与性能对比

这是 2025Q4 到 2026Q1 最重要的一个阶段，也是近半年效果提升最大的一步。如果说前面几步都在对着教师的示范照抄，这一步开始要让学生在自己的分布上学习，消除暴露偏差（exposure bias）。

Thinking Machines Lab（2025.10）跑过一组对比数据，很能说明问题：

方法	AIME’24	GPU 小时	相对 SFT 成本
Off-Policy SFT	55.0%	基准	1×
+ RL (GRPO)	67.6%	17,920	≈ 1×
+ On-Policy Distillation	74.4%	1,800	降低 10×

性能最高、成本最低——这是为什么称它为范式突破。

能不能做，先看三个前置条件

做 On-Policy 蒸馏不是想做就能做：教师模型必须开源，因为要拿 logits；教师要能在线推理，也就是说 GPU 得同时跑教师和学生；以及学生必须先过阶段 2 的 SFT 热身（前面说过，跳过热身的 On-Policy 效果会差一大截）。闭源的 Gemini 3.1 Pro / Claude Opus 这种只能用在阶段 1 的数据生成，走不到这里。

三步闭环

核心算法就三步，反复循环：

Step 1: 学生从当前策略采样生成响应（On-Policy 数据） Step 2: 教师在学生的每个 token 位置计算 logits（密集反馈） Step 3: 学生用 Reverse KL 作为损失更新策略 → 回到 Step 1

迭代 3~10 轮，监控 top-k 重叠率，它不再上涨就可以停了。

超参数全集中在这几个

这几个参数相互咬合，改动时要谨慎：

KL 方向用 Reverse KL（MiniLLM, ICLR 2024），不是 Forward KL；
响应长度控制在 3K~7K tokens——清华 OPD 论文的实测结论：太短信号不够，太长会触发奖励退化；
Top-k 设 Sampled-token 即可，无需 full-vocabulary，但要避免 Top-1；
提示模板对齐教师训练时的模板——这个看似细节的点，单独切一下就能明显涨分；
混入 20%~30% 分布外提示，防止熵崩塌；
学习率1e-6~5e-6，比 SFT 还低；
迭代 3~10 轮，重叠率不涨就停。

盯仪表盘

训练过程里有三个仪表必须常看：Top-k 重叠率要从初始的 ~70% 稳步上升到 ~90%，停滞不前就是出了问题；熵差距（学生与教师）应当逐步缩小；领域评测分数持续上升——原地踏步甚至下降说明方向不对。

工程落地：以 veRL 为例

开源社区这两年冒出来的 RL / 蒸馏框架不少，TRL、OpenRLHF、NeMo-Aligner、veRL 这些都能搭出类似流程，各家强项不同，选型见仁见智。下面拿veRL（字节跳动开源）做一个具体例子——它在 2026 年 Q1 同时支持 SFT / On-Policy 蒸馏 / GRPO / DPO，栈比较统一，适合从头拉通一条流水线，其他框架的写法大体类似，可以照着映射。

veRL 的 On-Policy 蒸馏数据通路是这样的：

Student Rollout → 生成响应 ↓ AsyncTeacherLLMServerManager（异步教师服务管理） ↓ _unpad_teacher_inputs → 去除 padding，提取有效序列 ↓ GlobalRequestLoadBalancer → 分发到教师模型副本（负载均衡） ↓ 教师计算 log probabilities / top-k 分布 ↓ _pad_teacher_outputs → 对齐回学生批次格式 ↓ 蒸馏损失 + 策略梯度损失 → 学生参数更新

上手要改的几个配置，参考值如下：distillation.loss_mode用forward_kl_topk（另外还有 k1、k3 两种模式，按需试）；教师部署建议用standalone模式，独立 GPU 免得和学生抢资源；推理后端 vLLM 或 SGLang 都行，veRL 原生支持；不需要教师反馈的步骤用sleep()/wake_up()释放显存；分布式后端 FSDP 最简单够用，超大规模再上 Megatron。

快速启动一条命令就行：

# FSDP 模式（推荐） bash examples/on_policy_distillation_trainer/run_qwen_gsm8k.sh # 关键参数覆盖 python -m verl.trainer.main \ distillation.enabled=True \ distillation.loss_mode="forward_kl_topk" \ distillation.teacher_model.path="Qwen/Qwen3-32B" \ actor.model.path="Qwen/Qwen3-8B"

显存紧的话有几个省钱技巧：教师用 INT8/INT4 量化（对 logits 的影响经验证很小）；开投机式蒸馏——学生生成做草稿、教师并行验证，能显著加速；配合sleep()/wake_up()在纯学生更新阶段把教师显存让出来。

何时进阶段 5（或者直接进阶段 6）

通过标准四条：领域评测 ≥ 教师的85%~90%；top-k 重叠率 ≥85%；与阶段 3 版本的 head-to-head 胜率 ≥60%；抽检推理链的逻辑连贯率 ≥ 90%。

三种危险信号别忽略：前几轮重叠率就停滞——教师和学生思维模式不兼容，换教师；训练到后期性能突然崩塌——长轨迹的奖励退化，把响应长度上限砍下来；熵一路掉到接近 0——模型退化成确定性输出了，加大分布外提示比例救一下。

阶段5：RL 探索（可选）

阶段5：RL探索——GRPO流程与可验证奖励

这一步打了括号——大多数项目其实不需要。它的存在价值是一句话：在教师能力边界之外继续探索，突破蒸馏天花板。要满足两个条件才值得做：领域里有可验证的奖励信号（数学正确性、代码能否跑通、SQL 执行结果、法条是否准确之类），并且阶段 4 做完后学生已经逼近教师上限、继续蒸馏榨不出东西了。任意一条不满足，跳过这一阶段直接进阶段 6 是更务实的选择。

GRPO 怎么配

GRPO 的套路是每个 prompt 生成一组响应做组内比较，关键参数就几个：

采样数 K = 8~16，每个 prompt 生成 K 条用于组内排名；
学习率1e-6~5e-6，和阶段 4 差不多；
KL 惩罚系数 0.01~0.05——开太大会抑制探索，开太小直接 reward hacking；
数据来源必须是与 SFT 不重叠的提示池，呼应阶段 3 的那条铁规；
奖励设计上优先规则验证 + 格式奖励，避免纯 LLM 打分做奖励——LLM 奖励几乎必被 hack。

奖励函数不同领域怎么落

可验证奖励是这一阶段的命脉，下面给几个领域的参考实现：

代码：pass@k，直接跑单元测试；
数学：正则把最终答案抠出来，和标准答案比；
SQL：沙箱数据库里执行，比较结果集；
法律：正则提取法条编号，查法律数据库验证；
医疗：诊断+用药合规性，做禁忌症和剂量范围的规则检查。

前沿方案：RLAD 融教师进 RL

2026 年的一个新方向叫RLAD（Reinforcement-Aware Knowledge Distillation），做法和之前的"GRPO + KL 正则"完全不同——它把教师信息融进了 RL 的重要性采样比率里。Qwen3-0.6B 的逻辑推理任务上 GRPO 是 0.76，换 RLAD 直接涨到0.94，而训练开销只多 12%。如果手头的任务对质量极度敏感，这个值得试。

进阶的标准和失效信号

三条硬标准：可验证任务准确率比阶段 4 再涨3~5pp；没有 reward hacking（输出长度、格式没有异常波动）；人工抽检里没有"正确但没用"这种讨好式回答。

三种失效模式要马上回头：奖励分一路上涨但评测分不动——典型 reward hacking；输出多样性急剧下降——KL 惩罚不够；loss 剧烈跳动、训练不稳定——学习率开大了，或者 K 太小没形成足够的组内对比。

阶段6：持续进化闭环

阶段6：持续进化闭环——生产数据飞轮与防坍塌铁律

模型上线那一刻不是项目结束，恰恰是最有价值的数据源刚刚打开。阶段 6 要搭的是一套自动化飞轮：生产数据源源不断流入，经过过滤和再训练，再回到生产环境。做得好，模型效果会随时间持续上升；做得不好，半年后就会看到逐代退化。

生产数据怎么收

推理服务得全量记录——所有请求和响应；用户反馈信号要打通，点赞点踩、用户的编辑修改、最终是否采纳，都是金矿；每一条数据必须打溯源标签，明确来自人工标注、合成数据还是生产真实数据，这在后面防坍塌时是生死线。

飞轮的节奏

按频率分层处理，不同节奏做不同粒度的事：

频率	做什么
每日	收集 + 规则过滤，全自动
每周	质量打分 + 抽样人工审核
每月	用新数据做一轮增量训练（SFT 或 On-Policy）
每季度	全量重训，从阶段 2 重走一遍

防坍塌的铁律（不能破）

Nature 发表过的研究已经定性：模型只在自己生成的数据上训练，性能会逐代退化。所以这一阶段有几条硬规则：

每轮训练必须包含不缩减的真实人工数据锚点；
合成数据在训练集里的占比上限建议 ≤70%；
严格追踪数据溯源，能区分人工 / 合成 / 各版本教师；
绝不允许合成数据完全替代人工标注——这一条没有例外。

模型变强之后：去教师化

当学生模型在领域评测上已经和教师难分高下，可以转入 SPIN 风格的自博弈：模型自己生成，再学会区分"自己的输出"和"人工标注"，迭代往下跑。进一步还可以配合 OPSD（2025）的"特权信息"策略——训练时把正确答案当辅助信号拉高生成质量，推理时把特权信息去掉。这条路等于主动摆脱对教师的依赖。

上线策略别一把梭

线上更新的容错空间很小，有三种保守但稳妥的部署方式：

影子模式：新旧模型并行推理，比较差异但不影响最终用户；
金丝雀发布：1% → 10% → 50% → 100%，每一步看关键指标再决定是否往下推；
混合路由：简单请求走新的小模型，复杂请求降级到大模型兜底。

持续运营要看什么

每月增量训练完的新版本，评测分数不能低于上一版；生产环境的用户满意度（采纳率、点赞率）保持或上升；飞轮的自动化流程稳定运行无人干预；用 entropy 监控模型输出多样性，防止逐步塌成复读机。四条同时达标才算"在进化"，任何一条出问题都要立刻定位。

写在最后

蒸馏不是一个项目，是一套持续运营的系统。数据质量永远比数据数量重要，教师选择永远比算法选择重要，评估体系永远比训练技巧重要。把 60% 的时间花在阶段 0 和阶段 1，剩下的顺着流程走就行。

学AI大模型的正确顺序，千万不要搞错了

🤔2026年AI风口已来！各行各业的AI渗透肉眼可见，超多公司要么转型做AI相关产品，要么高薪挖AI技术人才，机遇直接摆在眼前！

有往AI方向发展，或者本身有后端编程基础的朋友，直接冲AI大模型应用开发转岗超合适！

就算暂时不打算转岗，了解大模型、RAG、Prompt、Agent这些热门概念，能上手做简单项目，也绝对是求职加分王🔋

📝给大家整理了超全最新的AI大模型应用开发学习清单和资料，手把手帮你快速入门！👇👇

学习路线:

✅大模型基础认知—大模型核心原理、发展历程、主流模型（GPT、文心一言等）特点解析
✅核心技术模块—RAG检索增强生成、Prompt工程实战、Agent智能体开发逻辑
✅开发基础能力—Python进阶、API接口调用、大模型开发框架（LangChain等）实操
✅应用场景开发—智能问答系统、企业知识库、AIGC内容生成工具、行业定制化大模型应用
✅项目落地流程—需求拆解、技术选型、模型调优、测试上线、运维迭代
✅面试求职冲刺—岗位JD解析、简历AI项目包装、高频面试题汇总、模拟面经

以上6大模块，看似清晰好上手，实则每个部分都有扎实的核心内容需要吃透！

我把大模型的学习全流程已经整理📚好了！抓住AI时代风口，轻松解锁职业新可能，希望大家都能把握机遇，实现薪资/职业跃迁～