当前位置: 首页 > news >正文

CPT、SFT、DPO分别是什么

在大语言模型(LLM, Large Language Model)的训练和对齐流程中,CPT、SFT、DPO是三个关键阶段的缩写,分别代表:


1.CPT:Continued Pre-Training(继续预训练)

有时也称为Domain-specific Pre-TrainingPost-Pretraining

✅ 目的:

在通用预训练(如 LLaMA、Qwen 的原始训练)之后,用特定领域或高质量语料继续训练模型,使其掌握更专业、更新或更符合目标场景的知识。

🔧 做什么?
  • 输入:大量无标注文本(如医学论文、代码、金融报告、中文百科等)
  • 方法:依然使用自回归语言建模目标(即预测下一个词,损失函数为交叉熵)
  • 模型结构不变,继续训练 Transformer 的所有参数
🌰 举例:
  • 用 GitHub 代码继续训练 → 得到更强的代码生成能力(如 CodeLLaMA)
  • 用中文书籍/网页继续训练 → 提升中文理解(如 Chinese-LLaMA)
  • 用最新新闻数据训练 → 更新模型知识截止日期
⚠️ 注意:
  • CPT 不涉及指令(instruction)或人类偏好
  • 输出仍是“通用语言模型”,不会自动遵循指令

2.SFT:Supervised Fine-Tuning(监督微调)

也叫Instruction Tuning(指令微调)

✅ 目的:

教会模型理解和遵循人类指令,将“通用语言模型”转变为“有用助手”。

🔧 做什么?
  • 输入:人工编写的 (指令, 回答) 对,例如:
    {"instruction":"解释牛顿第一定律","output":"牛顿第一定律指出:任何物体都要保持匀速直线运动或静止状态,直到外力迫使它改变运动状态为止。"}
  • 方法:以监督学习方式微调模型,最小化生成回答与标准答案的交叉熵损失
  • 通常只微调部分参数(如全参数微调、LoRA)
🌰 效果:
  • 模型学会格式化输出、多轮对话、任务分解等
  • 但可能仍会生成不真实、有害或冗长的回答(因为 SFT 数据有限,且未建模人类偏好)

3.DPO:Direct Preference Optimization(直接偏好优化)

一种替代 RLHF(基于强化学习的人类反馈)的对齐方法

✅ 目的:

让模型输出更符合人类偏好的回答(如有帮助、诚实、无害),而不仅仅是模仿 SFT 数据。

🔧 做什么?
  • 输入:偏好数据集,每条包含:
    • 一个 prompt
    • 两个模型生成的回答:chosen(优选)vsrejected(次选)
    • 由人类标注哪个更好
  • 方法:不使用强化学习,而是通过一个巧妙的损失函数直接优化策略模型,使其更倾向于生成 “chosen” 回答
📐 DPO 核心思想(简化):

如果人类认为回答 A 比 B 好,那么模型对 A 的 log-probability 应该显著高于 B。

✅ DPO 优势(vs RLHF):
项目RLHFDPO
是否需要奖励模型(RM)✅ 需要先训练 RM❌ 不需要
是否使用强化学习(PPO)✅ 是,复杂不稳定❌ 否,纯监督式训练
实现难度
训练稳定性较差更好


✅ 总结对比表

阶段全称输入数据目标是否需要标注
CPTContinued Pre-Training大量无标签文本扩展知识/领域适应❌ 无监督
SFTSupervised Fine-Tuning(指令, 回答) 对学会遵循指令✅ 人工编写
DPODirect Preference Optimization(prompt, chosen, rejected)对齐人类偏好✅ 人工偏好标注

💡 补充说明

  • RLHF(Reinforcement Learning from Human Feedback)是 DPO 之前的主流对齐方法,包含两步:
    1. 用偏好数据训练奖励模型(Reward Model, RM)
    2. 用 PPO 算法优化语言模型以最大化 RM 奖励
  • DPO 是 RLHF 的“简化替代方案”,效果相当甚至更好,已成为当前主流(如 Llama-3、Qwen2 等都采用 DPO)

大模型训练,典型的流程就是:
CPT → SFT → DPO,逐步从“知识丰富”到“听话”再到“靠谱”。

http://www.jsqmd.com/news/106361/

相关文章:

  • Flink Join 核心解析:类型、原理、实操
  • 一种“看起来很稳”,却暗藏坑点的恒流 PWM 驱动电路
  • 机械手弧焊节气设备
  • Linux 内存管理:TLB ASID
  • 【计算机毕设】基于深度学习的人体摔倒识别方法与实现
  • 42、Linux编程:软件开发工具探索与实践
  • 告别 LLM 输出的不确定性:深度解析 TypeChat 如何重塑 AI 工程化开发
  • 机器人操作空间速度计算python几种实现函数
  • 透过格子玻尔兹曼LBM实现三相驱替:油、水、二氧化碳三组分动态模拟与研究
  • 通用 AI · Universal AI 2
  • 微信朋友圈集赞神器靠谱吗?微信点赞群5000人微信投票是真的吗? - 速递信息
  • 格子玻尔兹曼方法(LBM)的MRT作用力模型
  • 为何选择具备制造业基因的厂商,是ERP与OA系统集成成功的关键
  • 43、Linux 编程:GNU 许可证与入门级 Shell 脚本编写
  • LLC谐振变换器的控制策略多种多样,今天咱们就来聊聊几种常见的闭环仿真方法,顺便用Matlab/Simulink来搞点代码,看看这些控制策略在实际中是怎么玩的
  • 多孩家庭首选 30-40 万新能源7座车型推荐 - 速递信息
  • API赋能:消金电销无缝联的革新实践
  • scheme中的序列操作
  • 力扣 “两数之和” 最优解:哈希表 O (n) 时间复杂度实现详解
  • 30-40 万新能源汽车 兼顾续航与智能的热门之选 - 速递信息
  • Skipping xxx as repository xxxx doesn‘t support architecture ‘i386‘
  • 基于WEB的高校计算机数据库课程知识图谱系统的设计与实现
  • TLS网络安全协议巩固知识基础题(2)
  • 网站建设公司怎么选?2025年网站设计制作公司推荐指南
  • 告别重复编码!10+顶级开发工具,引爆程序员效率革命
  • 聚焦家庭需求:20 万左右新能源 SUV 空间与安全优选车型
  • 基于SpringBoot + Vue的高校科研项目申报审批管理系统
  • 2026年河北省职业院校技能大赛中职组“网络建设与运维”竞赛样题
  • 基于SpringBoot + Vue的个性化学习系统
  • C语言5——常见关键字 define定义常量 表达式求值