当前位置：首页 > news >正文

2.4 后训练技术：SFT与RLHF从原理到实战

news 2026/7/7 18:05:16

后训练技术：SFT与RLHF从原理到实战

指令遵循、对齐人类偏好，读懂大模型如何「听话」。本节基于《AI工程》第2章「Post-Training」— Supervised Finetuning、Preference Finetuning。

一、什么是后训练？

Chip Huyen 在《AI工程》第2章将后训练（Post-Training）列为理解基础模型的核心环节。后训练是指在预训练之后，通过额外数据对模型进行优化，使其更符合任务需求和人类偏好。主要包括：

SFT（Supervised Finetuning）：监督微调，提升指令遵循
RLHF/DPO（Preference Finetuning）：偏好微调，减少幻觉与有害输出

书中强调，后训练是连接「通用预训练模型」与「可用的应用模型」的关键桥梁。

二、监督微调（SFT）

2.1 原理

《AI工程》描述：在（指令, 期望输出）对上训练，让模型学会按要求生成。SFT 是提升指令遵循能力的最直接方式。

http://www.jsqmd.com/news/377418/

相关文章：

【计算机基础】-46-“用合适的工具做合适的事” —— 通用场景用 Small Memory，实时关键场景用不同size的Memory Pool，内核对象用 Slab，大内存用 Buddy。

ArkUI框架运行原理与常见性能优化方案

Apache Cassandra Connector Flink 与宽列存储的高吞吐协作 - 实践

完整教程：【低空经济】低空经济智能制造基地建设方案

AI 画图全家桶来了！这回想自己手绘图都难了

专业检测背书，标准引领品质——独语N627-1领跑学生护眼市场 - 资讯焦点

setupldr源代码分析之得到SetupDevice和打开文件txtsetup.sif和biosinfo.inf

买中宁枸杞选哪个品牌？玺赞深耕十年，用道地品质筑牢口碑标杆 - 宁夏壹山网络

计算机毕业设计Python+Django微博舆情分析系统微博舆情预测微博爬虫微博大数据(源码+LW文档+PPT+详细讲解)

【深度解析】某水务集团“十五五“数据资产化战略：构建水务数据资产与水权交易双轮驱动的数字化新生态（WORD）

1.1 从语言模型到LLM：万字详解大模型演进史

洗碗粉（洗碗机清洁剂）市场细分观察：安全、效能与场景驱动的品牌分化

2026选新型高清印刷机定制厂家，这份排行分析别错过，市场高清印刷机怎么选购精选实力品牌 - 品牌推荐师

10.3 实战多Agent协作完成一个复杂项目

1.2 基础模型究竟是什么？一文搞懂AI工程核心概念

【信息科学与工程学】【解决方案体系】光刻机

我论文写得太像人了，结果系统说：你不是人？？

$k$ 边最短路-矩乘

你认真写下的每一个字，都值得被相信 ✨

大润发购物卡快速变现攻略 - 团团收购物卡回收

SharePoint Online 网站配置时区

河北粘钉一体机厂家2026年推荐榜，品质与口碑并存，河北粘钉一体机公司哪个好解决方案与实力解析 - 品牌推荐师

大模型“涌现能力”的来源解析

开题总被退回？试试百考通AI——专业、规范、0代写风险！

2026年大型集团资产管理系统软件哪家好？资产管理系统平台推荐 - 品牌2025

靶心转移：开发者成网络攻击首要突破口，供应链与AI暗战重构安全格局

拒绝模板化！百考通AI生成个性化开题报告，贴合你的研究方向

深入解析：TDengine C# 语言连接器入门指南

抗衰产品哪款更靠谱？2026年高纯度NMN抗衰推荐，精准改善NAD+水平 - 资讯焦点