当前位置: 首页 > news >正文

大模型基础(三):大模型是怎么炼成的-从预训练到强化学习的完整流程

你有没有好奇过,ChatGPT是怎么从一个只会"预测下一个字"的语言模型,变成能理解你问题、给出优质回答的智能助手?这篇文章带你一探究竟。


一、引言:大模型的"成长之路"

想象一下,如果要把一个孩子培养成优秀的作家,你会怎么教?

  1. 读书识字:先让他阅读海量书籍,掌握语言的基本规律和知识
  2. 练习写作:教他怎么按照要求写文章,比如"写一篇游记"
  3. 评价反馈:告诉他写得好的地方和不好的地方
  4. 精益求精:不断改进,越来越会写

大模型的训练过程,和这个教育流程惊人地相似!


二、第一阶段:预训练——海量数据的"读书识字"

2.1 预训练是什么?

预训练(Pretraining),就是让模型"阅读"海量文本,学习语言的基本规律和世界知识。

数据量有多大?

  • GPT-3的训练数据:约5000亿个Token(相当于几千本书的内容)
  • 来源:网页、维基百科、书籍、GitHub代码、论文、问答网站等

举个类比

预训练就像让学生读遍图书馆里所有的书。虽然他可能不理解每本书的深意,但他学会了语言的规律,记住了很多知识。

2.2 数据是怎么处理的?

原始数据质量参差不齐,需要精心处理:

数据来源 原始大小 过滤后大小 说明
CommonCrawl(网页爬虫) 45TB 570GB 过滤掉低质量网页
WebText2(Reddit推荐) - 较小 高质量讨论内容
Books1/Books2 - 较小 互联网书籍
Wikipedia - 较小 维基百科百科知识

数据处理流程

  1. 质量过滤:删除低质量、乱码内容
  2. 去重:避免重复内容
  3. 隐私消除:去除个人敏感信息
  4. 分词(Tokenization):把文本切成一个个Token

2.3 什么是Token?

Token是大模型处理文本的基本单位,可以理解为"字"或"词"。

换算关系

  • 1个英文字符 ≈ 0.3个Token
  • 1个中文字符 ≈ 0.6个Token

举例

原文:"我爱学习AI"
Token化:["我", "爱", "学习", "AI"]
Token数量:约4个

2.4 训练需要多少算力?

预训练是"烧钱"的环节:

模型 参数量 GPU数量 训练时间
GPT-3 1750亿 约1000块 数周
BLOOM 1760亿 384块A100 3.5个月

为什么这么贵?

  • 模型参数庞大(数百亿到千亿级别)
  • 数据量巨大(数千亿Token)
  • 需要高性能GPU集群

2.5 预训练后得到什么?

预训练完成后,得到基础模型(Base Model)

基础模型的能力:

  • 掌握了大量语言规律
  • 记住了很多世界知识
  • 但不会按照人类指令回答问题

🤔 思考题:为什么基础模型不能直接用?

因为它的训练目标是"预测下一个字",而不是"回答问题"。你问"今天天气怎么样",它可能会继续写"怎么样呢,我也不知道"——因为它以为你在让它续写句子,而不是问问题!


三、第二阶段:有监督微调(SFT)——学会"听指令"

3.1 SFT是什么?

有监督微调(Supervised Finetuning,SFT),也叫指令微调,就是教模型理解人类指令并按要求回答。

类比

预训练学会了"说话",SFT学会了"听话"——理解用户想要什么。

3.2 SFT数据长什么样?

SFT数据是"指令+回答"的配对:

示例数据

{"instruction": "复旦大学有几个校区?","output": "复旦大学现有4个校区,分别是邯郸校区、新江湾校区、枫林校区和张江校区..."
}

数据量:通常只需要几万条高质量数据(比预训练少得多!)

3.3 数据怎么构建?

有四种主要方法:

方法 说明 优点 缺点
手动构建 人工编写指令和回答 高质量、可解释 费时费力
数据集转换 整合现有开源数据集 多样性、规模大 需格式标准化
自动构建 用LLM生成指令(Self-Instruct) 高效、可扩展 质量需过滤
综合模式 结合多种方法 兼顾各方面 流程复杂

Self-Instruct流程

  1. 用GPT生成任务指令
  2. 生成对应的输入输出
  3. 过滤低质量数据(相似度过滤)
  4. 形成训练数据集

3.4 一个有趣的发现:表层对齐假设

研究发现,高质量的数据量可能不需要那么多

实验结果:LLaMA 65B + 1000条高质量数据(LIMA)的效果,竟然和52000条数据(Alpaca)差不多!

这说明:模型的能力主要来自预训练,SFT只是教它怎么"展示"这些能力

3.5 SFT后的模型能做什么?

SFT模型具备:

  • 理解用户指令的能力
  • 基本的问答、翻译、摘要能力
  • 对未知任务的泛化能力

很多开源模型(如ChatGLM、Vicuna、MOSS)都是SFT模型,效果可以达到ChatGPT的90%!


四、第三阶段:奖励建模(RM)——学会"评判好坏"

4.1 RM是什么?

奖励建模(Reward Modeling),就是训练一个模型来判断回答的质量高低

类比

RM就像一个"阅卷老师",给每个答案打分。

4.2 RM数据怎么构建?

RM数据是"指令+多个回答+排序":

示例数据

指令:"如何提高写作能力?"回答A(排第1):多读多写,刻意练习...
回答B(排第2):每天写日记...
回答C(排第3):随便写就行...标注者按质量排序:A > B > C

数据量:通常需要百万条对比数据!

4.3 RM模型怎么训练?

RM本质上是一个二分类模型

给定两个回答A和B,判断哪个更好:

  • 输入:指令 + 回答A + 回答B
  • 输出:A更好的概率

4.4 RM为什么重要?

RM的准确率直接决定下一阶段强化学习的效果!

如果RM判断错误,模型就会"学歪"——把差的回答当成好的。


五、第四阶段:强化学习(RL)——最终"精益求精"

5.1 RL是什么?

强化学习(Reinforcement Learning),就是用RM的反馈,进一步优化模型。

类比

RL就像学生根据老师的评分,不断改进自己的写作技巧。

5.2 RL的核心流程

image

详细流程

  1. 用户给出指令
  2. SFT模型生成回答
  3. RM对回答打分(奖励)
  4. 根据奖励调整模型参数
  5. 使得模型倾向于生成高分回答

5.3 RL有什么问题?

RL有几个挑战:

  • 稳定性不高:训练容易发散
  • 超参数众多:调参难度大
  • 多样性降低:模型可能变得"保守"

💡 有趣发现:Andrej Karpathy指出,RL会使模型输出的"熵降低",也就是变得更确定、更安全,但也可能减少创造性。

5.4 RL之后得到什么?

最终得到的RL模型,就是像ChatGPT、Claude这样的产品级模型。

它具备:

  • 理解复杂指令
  • 生成高质量回答
  • 较少的幻觉和错误

六、完整流程回顾

让我们用一个表格总结四个阶段:

阶段 目标 数据 算力 时间 产出
预训练 学习语言和知识 数千亿Token 1000+GPU 数周 Base Model
SFT 学会理解指令 数万条指令-回答 1-100GPU 数天 SFT Model
RM 学会评判质量 百万条对比排序 1-100GPU 数天 RM Model
RL 优化回答质量 十万条指令 1-100GPU 数天 ChatGPT

成本分布

  • 预训练:最昂贵(90%以上成本)
  • 后三个阶段:相对便宜

七、给技术人员的启示

7.1 为什么开源SFT模型效果很好?

因为模型的能力主要来自预训练!只要预训练做得好,SFT用几千条数据就能获得不错的效果。

7.2 自己训练模型需要什么?

场景 推荐方案
快速验证 用开源SFT模型(如ChatGLM)
领域定制 在开源模型基础上微调
完全自研 需要巨额算力(不建议)

7.3 LoRA:低成本的微调方案

如果只是想微调,LoRA是一个好选择:

  • 只训练少量参数(原本参数的1%以下)
  • 效果接近全量微调
  • 一块GPU就能微调7B模型

八、总结

大模型的训练流程可以概括为:

预训练打基础(学知识) → SFT学指令(懂用户) → RM学评判(知好坏) → RL精益求精(更优秀)

每个阶段都有其独特的作用:

  • 预训练:决定了模型的"天花板"
  • SFT:让模型"落地"
  • RM+RL:让模型"升华"

理解这个流程,你就理解了大模型为什么能如此强大!


参考资源

  • Andrej Karpathy演讲:《State of GPT》
  • InstructGPT论文:OpenAI, 2022
  • LIMA论文:Zhou et al., 2023
  • Self-Instruct论文:Wang et al., 2022

下一篇预告:强化学习入门:从斯金纳箱到大模型推理

http://www.jsqmd.com/news/745444/

相关文章:

  • 不止于转换:深入LibreDWG命令行,解锁dwg2svg、dwgread等隐藏玩法(Win10实测)
  • 终极窗口调整指南:用WindowResizer彻底释放你的桌面控制力
  • SCMP培训包过靠谱吗? - 众智商学院官方
  • 3分钟突破Word转LaTeX困境:docx2tex一站式解决方案
  • 从面包板到智能家居:用Arduino Uno和几个传感器打造你的第一个物联网项目
  • 用L9110S驱动模块和51单片机,从零搭建一辆能前后左右跑的小车(附完整代码)
  • 简单三步:B站缓存视频m4s转MP4完整指南
  • 为什么Dism++是Windows系统维护的终极解决方案?
  • 全面解析HS2-HF_Patch:如何为Honey Select 2打造专业级游戏体验优化方案
  • 别再只用公开数据集了!手把手教你用YOLOv5和LabelImg搞定自己的‘对焦测试员’检测模型
  • 1Fichier下载管理器:智能代理绕过与批量下载的终极解决方案
  • YahooFinanceApi 架构深度解析:.NET 金融数据获取的完整企业级解决方案
  • 车载安卓系统如何选型固件加固?高通8155、RK3588平台实战适配与安全设计
  • BLE安全入门:别再混淆配对、绑定和连接了!从手机连手表实例看懂Legacy与Secure Connections
  • 从硅片到二极管:用大白话和动画图解PN结的单向导电性
  • 全新 Pro 级影视视频系统网站源码(内含 9 套精美模板随意切换)
  • League Akari:英雄联盟玩家的本地智能助手完全指南
  • 基于MCP协议构建AI驱动的自动化部署与测试工作流
  • BaiduNetdiskPlugin-macOS:macOS平台百度网盘下载优化方案
  • 别再只会用默认参数了!iperf3网络测速保姆级教程,从TCP/UDP到带宽限制全搞定
  • 智能温控革命:Fan Control如何成为Windows散热优化的终极解决方案
  • 芯片FAE vs. AE vs. Sales:一张图看懂技术岗的“鄙视链”与职业跃迁路径
  • UnityExplorer终极指南:解锁Unity游戏实时调试的5大核心功能
  • 基于Telegram与OpenAI API构建私有ChatGPT机器人:从部署到优化全指南
  • APK Installer技术深度解析:Windows平台安卓应用安装的架构创新与实践指南
  • 告别硬件I2C的烦恼:用STM32普通IO口模拟SMBus驱动BQ4050的完整配置流程
  • 思源宋体终极指南:7种粗细样式打造专业中文排版的完整解决方案
  • 为企业内部知识库问答系统集成可靠的大模型能力
  • 别再一条条敲命令了!手把手教你修改Anaconda的.condarc文件,一劳永逸换清华源
  • 别再只用Zabbix了!手把手教你用SNMPv3安全监控Linux服务器(CentOS 7/8实战)