当前位置: 首页 > news >正文

2.4 后训练技术:SFT与RLHF从原理到实战

后训练技术:SFT与RLHF从原理到实战

指令遵循、对齐人类偏好,读懂大模型如何「听话」。本节基于《AI工程》第2章「Post-Training」— Supervised Finetuning、Preference Finetuning。

一、什么是后训练?

Chip Huyen 在《AI工程》第2章将后训练(Post-Training)列为理解基础模型的核心环节。后训练是指在预训练之后,通过额外数据对模型进行优化,使其更符合任务需求人类偏好。主要包括:

  • SFT(Supervised Finetuning):监督微调,提升指令遵循
  • RLHF/DPO(Preference Finetuning):偏好微调,减少幻觉与有害输出

书中强调,后训练是连接「通用预训练模型」与「可用的应用模型」的关键桥梁。


二、监督微调(SFT)

2.1 原理

《AI工程》描述:在(指令, 期望输出)对上训练,让模型学会按要求生成。SFT 是提升指令遵循能力的最直接方式。

http://www.jsqmd.com/news/377418/

相关文章:

  • 【计算机基础】-46-“用合适的工具做合适的事” —— 通用场景用 Small Memory, 实时关键场景用 不同size的Memory Pool, 内核对象用 Slab, 大内存用 Buddy。
  • ArkUI框架运行原理与常见性能优化方案
  • Apache Cassandra Connector Flink 与宽列存储的高吞吐协作 - 实践
  • 完整教程:【低空经济】低空经济智能制造基地建设方案
  • AI 画图全家桶来了!这回想自己手绘图都难了
  • 专业检测背书,标准引领品质——独语N627-1领跑学生护眼市场 - 资讯焦点
  • setupldr源代码分析之得到SetupDevice和打开文件txtsetup.sif和biosinfo.inf
  • 买中宁枸杞选哪个品牌?玺赞深耕十年,用道地品质筑牢口碑标杆 - 宁夏壹山网络
  • 计算机毕业设计Python+Django微博舆情分析系统 微博舆情预测 微博爬虫 微博大数 据(源码+LW文档+PPT+详细讲解)
  • 【深度解析】某水务集团“十五五“数据资产化战略:构建水务数据资产与水权交易双轮驱动的数字化新生态(WORD)
  • 1.1 从语言模型到LLM:万字详解大模型演进史
  • 洗碗粉(洗碗机清洁剂)市场细分观察:安全、效能与场景驱动的品牌分化
  • 2026选新型高清印刷机定制厂家,这份排行分析别错过,市场高清印刷机怎么选购精选实力品牌 - 品牌推荐师
  • 10.3 实战 多Agent协作完成一个复杂项目
  • 1.2 基础模型究竟是什么?一文搞懂AI工程核心概念
  • 【信息科学与工程学】【解决方案体系】光刻机
  • 我论文写得太像人了,结果系统说:你不是人??
  • $k$ 边最短路-矩乘
  • Linux随记
  • 你认真写下的每一个字,都值得被相信 ✨
  • 大润发购物卡快速变现攻略 - 团团收购物卡回收
  • SharePoint Online 网站配置时区
  • 河北粘钉一体机厂家2026年推荐榜,品质与口碑并存,河北粘钉一体机公司哪个好解决方案与实力解析 - 品牌推荐师
  • 大模型“涌现能力”的来源解析
  • 开题总被退回?试试百考通AI——专业、规范、0代写风险!
  • 2026年大型集团资产管理系统软件哪家好?资产管理系统平台推荐 - 品牌2025
  • 靶心转移:开发者成网络攻击首要突破口,供应链与AI暗战重构安全格局
  • 拒绝模板化!百考通AI生成个性化开题报告,贴合你的研究方向
  • 深入解析:TDengine C# 语言连接器入门指南
  • 抗衰产品哪款更靠谱?2026年高纯度NMN抗衰推荐,精准改善NAD+水平 - 资讯焦点