当前位置：首页 > news >正文

人工智能篇---SFT与DPO

news 2026/5/3 10:47:40

SFT（Supervised Fine-Tuning，有监督微调），是在大语言模型（LLM）训练流程中，紧接在预训练（Pre-training）之后的关键一步。它的核心目的非常直接：让一个什么都懂的"通才"模型，学会遵循指令，变成一个能干的"专才"助手。

SFT 本质上是在一个高质量的指令-答案对数据集上，对预训练模型进行进一步的训练。这些数据是人工或由高级模型精心构造的，包含了各种各样的任务，比如问答、摘要、翻译、代码生成等。

训练数据格式：典型的数据由三部分组成：
- System Prompt（系统提示，可选）：定义模型的角色和行为风格，如"你是一个乐于助人的助手"。
- Instruction（指令/问题）：用户的输入，如"请解释一下什么是光合作用"。
- Expected Output（期望输出/答案）：理想的标准答案。
训练目标：模型在接收指令后，需要逐词地预测期望答案的那段文本。它与预训练的目标函数（通常是预测下一个词）完全相同，但不同之处在于：
- 它只计算答案部分的预测损失，而对指令部分的预测损失通常进行掩码处理。这逼着模型把注意力集中在"面对这个问题，应该如何回答"上，而不是去死记硬背问题本身。

在整个大模型训练管线中，SFT 起着承上启下的桥梁作用：

预训练 (Pre-training)：模型在海量互联网文本语料上学习"世界知识"和"语言规律"，这个阶段产出的模型是"话挺多，但不听话"的基础模型。
有监督微调 (SFT)：模型学习如何从指令中理解用户意图，并组织出有用、无害、格式规范的回答。这个阶段的模型已经能与人类进行基本对话了。
强化学习人类反馈 (RLHF)：这是对 SFT 模型的进一步优化。RLHF 通过人类的偏好排序来训练一个奖励模型，再用这个奖励模型去优化 SFT 模型，让它学会生成"更好"而非仅仅是"正确"的答案，比如回答更有帮助、更安全或更详细。

虽然现在 RLHF 很火热，但 SFT 仍然是不可或缺的基础。没有经过好的 SFT，RLHF 过程会极不稳定，因为模型连基本的指令格式都遵循不了。

一个成功的 SFT 过程，其核心往往在于数据的质量和数量。

数据质量重于数量：与预训练的海量数据不同，SFT 对数据质量极为敏感。几千到几万条高质量、多样化、贴近真实场景的指令数据，就可能让一个小模型表现出色。数据中的偏差、错误或格式不一致会直接被模型学到。
数据多样性与丰富程度：为了保持模型的泛化能力，SFT 数据需要覆盖各种任务类型，确保它不会只在某一个任务上表现好，而在其他任务上能力退化。
计算成本相对较低：由于 SFT 的数据量远小于预训练，它对算力和时间的要求通常也低很多，单机多卡甚至单卡训练几天即可完成一轮优秀的 SFT。

下面这张 Mermaid 框图总结了 SFT 的核心概念、流程与价值：

DPO（Direct Preference Optimization，直接偏好优化）是继RLHF之后，大模型对齐领域的一项突破性方法。它简化了让模型“学会什么才是好回答”的整个训练流程。

传统的RLHF流程像个三阶段接力赛：先做SFT，再训一个奖励模型，最后用强化学习微调SFT模型。而DPO直接把“根据人类偏好优化策略”这个目标，重构成了一个优雅的有监督分类任务，在SFT模型上一步到位就完成了对齐。

无需显式的奖励模型：DPO的关键是推导出了最优策略与奖励函数之间的直接数学映射。这让模型可以直接从偏好数据对中学习，而无需单独训练一个用于打分的奖励模型。
无需复杂的强化学习：因为没了需要反复采样和更新的RL（特别是PPO算法）环节，整个训练过程变得极其稳定，调参难度也大大降低。

DPO的训练数据是偏好对：对于同一个指令，有胜出的“优选回答 (win)”和落选的“劣选回答 (lose)”。它的目标函数非常直观：

拉大差距：它只做一件事，就是最大化优选回答与劣选回答在模型眼中的生成概率之差。模型被训练得更“喜欢”生成那个胜出的回答，同时“远离”那个落选回答。
不跑偏：为了防止模型为了讨好偏好而胡说八道，损失函数里还包含了一个KL散度惩罚项，确保优化后的模型不会与原始的SFT模型偏差太远，守住了基本能力和表述规范。

DPO带来的不止是流程上的精简，更是能力和稳定性的提升。