当前位置：首页 > news >正文

CPT、SFT、DPO分别是什么

news 2026/7/7 19:18:07

在大语言模型（LLM, Large Language Model）的训练和对齐流程中，CPT、SFT、DPO是三个关键阶段的缩写，分别代表：

1.CPT：Continued Pre-Training（继续预训练）

有时也称为Domain-specific Pre-Training或Post-Pretraining

✅ 目的：

在通用预训练（如 LLaMA、Qwen 的原始训练）之后，用特定领域或高质量语料继续训练模型，使其掌握更专业、更新或更符合目标场景的知识。

🔧 做什么？

输入：大量无标注文本（如医学论文、代码、金融报告、中文百科等）
方法：依然使用自回归语言建模目标（即预测下一个词，损失函数为交叉熵）
模型结构不变，继续训练 Transformer 的所有参数

🌰 举例：

用 GitHub 代码继续训练 → 得到更强的代码生成能力（如 CodeLLaMA）
用中文书籍/网页继续训练 → 提升中文理解（如 Chinese-LLaMA）
用最新新闻数据训练 → 更新模型知识截止日期

⚠️ 注意：

CPT 不涉及指令（instruction）或人类偏好
输出仍是“通用语言模型”，不会自动遵循指令

2.SFT：Supervised Fine-Tuning（监督微调）

也叫Instruction Tuning（指令微调）

✅ 目的：

教会模型理解和遵循人类指令，将“通用语言模型”转变为“有用助手”。

🔧 做什么？

输入：人工编写的 (指令, 回答) 对，例如：

{"instruction":"解释牛顿第一定律","output":"牛顿第一定律指出：任何物体都要保持匀速直线运动或静止状态，直到外力迫使它改变运动状态为止。"}

方法：以监督学习方式微调模型，最小化生成回答与标准答案的交叉熵损失
通常只微调部分参数（如全参数微调、LoRA）

🌰 效果：

模型学会格式化输出、多轮对话、任务分解等
但可能仍会生成不真实、有害或冗长的回答（因为 SFT 数据有限，且未建模人类偏好）

3.DPO：Direct Preference Optimization（直接偏好优化）

一种替代 RLHF（基于强化学习的人类反馈）的对齐方法

✅ 目的：

让模型输出更符合人类偏好的回答（如有帮助、诚实、无害），而不仅仅是模仿 SFT 数据。

🔧 做什么？

输入：偏好数据集，每条包含：
- 一个 prompt
- 两个模型生成的回答：chosen（优选）vsrejected（次选）
- 由人类标注哪个更好
方法：不使用强化学习，而是通过一个巧妙的损失函数直接优化策略模型，使其更倾向于生成 “chosen” 回答

📐 DPO 核心思想（简化）：

如果人类认为回答 A 比 B 好，那么模型对 A 的 log-probability 应该显著高于 B。

✅ DPO 优势（vs RLHF）：

项目	RLHF	DPO
是否需要奖励模型（RM）	✅ 需要先训练 RM	❌ 不需要
是否使用强化学习（PPO）	✅ 是，复杂不稳定	❌ 否，纯监督式训练
实现难度	高	低
训练稳定性	较差	更好

✅ 总结对比表

阶段	全称	输入数据	目标	是否需要标注
CPT	Continued Pre-Training	大量无标签文本	扩展知识/领域适应	❌ 无监督
SFT	Supervised Fine-Tuning	(指令, 回答) 对	学会遵循指令	✅ 人工编写
DPO	Direct Preference Optimization	(prompt, chosen, rejected)	对齐人类偏好	✅ 人工偏好标注

💡 补充说明

RLHF（Reinforcement Learning from Human Feedback）是 DPO 之前的主流对齐方法，包含两步：
1. 用偏好数据训练奖励模型（Reward Model, RM）
2. 用 PPO 算法优化语言模型以最大化 RM 奖励
DPO 是 RLHF 的“简化替代方案”，效果相当甚至更好，已成为当前主流（如 Llama-3、Qwen2 等都采用 DPO）

大模型训练，典型的流程就是：
CPT → SFT → DPO，逐步从“知识丰富”到“听话”再到“靠谱”。

http://www.jsqmd.com/news/106361/

相关文章：

Flink Join 核心解析：类型、原理、实操

一种“看起来很稳”，却暗藏坑点的恒流 PWM 驱动电路

机械手弧焊节气设备

Linux 内存管理：TLB ASID

【计算机毕设】基于深度学习的人体摔倒识别方法与实现

42、Linux编程：软件开发工具探索与实践

告别 LLM 输出的不确定性：深度解析 TypeChat 如何重塑 AI 工程化开发

机器人操作空间速度计算python几种实现函数

透过格子玻尔兹曼LBM实现三相驱替：油、水、二氧化碳三组分动态模拟与研究

通用 AI · Universal AI 2

微信朋友圈集赞神器靠谱吗？微信点赞群5000人微信投票是真的吗？ - 速递信息

格子玻尔兹曼方法（LBM）的MRT作用力模型

为何选择具备制造业基因的厂商，是ERP与OA系统集成成功的关键

43、Linux 编程：GNU 许可证与入门级 Shell 脚本编写

LLC谐振变换器的控制策略多种多样，今天咱们就来聊聊几种常见的闭环仿真方法，顺便用Matlab/Simulink来搞点代码，看看这些控制策略在实际中是怎么玩的

多孩家庭首选 30-40 万新能源7座车型推荐 - 速递信息

API赋能：消金电销无缝联的革新实践

scheme中的序列操作

力扣 “两数之和” 最优解：哈希表 O (n) 时间复杂度实现详解

30-40 万新能源汽车兼顾续航与智能的热门之选 - 速递信息

Skipping xxx as repository xxxx doesn‘t support architecture ‘i386‘

基于WEB的高校计算机数据库课程知识图谱系统的设计与实现

TLS网络安全协议巩固知识基础题（2）

网站建设公司怎么选？2025年网站设计制作公司推荐指南

告别重复编码！10+顶级开发工具，引爆程序员效率革命

聚焦家庭需求：20 万左右新能源 SUV 空间与安全优选车型

基于SpringBoot + Vue的高校科研项目申报审批管理系统

2026年河北省职业院校技能大赛中职组“网络建设与运维”竞赛样题

基于SpringBoot + Vue的个性化学习系统

C语言5——常见关键字 define定义常量表达式求值