当前位置：首页 > news >正文

大模型基础（三）：大模型是怎么炼成的-从预训练到强化学习的完整流程

news 2026/5/3 16:26:58

你有没有好奇过，ChatGPT是怎么从一个只会"预测下一个字"的语言模型，变成能理解你问题、给出优质回答的智能助手？这篇文章带你一探究竟。

一、引言：大模型的"成长之路"

想象一下，如果要把一个孩子培养成优秀的作家，你会怎么教？

读书识字：先让他阅读海量书籍，掌握语言的基本规律和知识
练习写作：教他怎么按照要求写文章，比如"写一篇游记"
评价反馈：告诉他写得好的地方和不好的地方
精益求精：不断改进，越来越会写

大模型的训练过程，和这个教育流程惊人地相似！

二、第一阶段：预训练——海量数据的"读书识字"

2.1 预训练是什么？

预训练（Pretraining），就是让模型"阅读"海量文本，学习语言的基本规律和世界知识。

数据量有多大？

GPT-3的训练数据：约5000亿个Token（相当于几千本书的内容）
来源：网页、维基百科、书籍、GitHub代码、论文、问答网站等

举个类比：

预训练就像让学生读遍图书馆里所有的书。虽然他可能不理解每本书的深意，但他学会了语言的规律，记住了很多知识。

2.2 数据是怎么处理的？

原始数据质量参差不齐，需要精心处理：

数据来源	原始大小	过滤后大小	说明
CommonCrawl（网页爬虫）	45TB	570GB	过滤掉低质量网页
WebText2（Reddit推荐）	-	较小	高质量讨论内容
Books1/Books2	-	较小	互联网书籍
Wikipedia	-	较小	维基百科百科知识

数据处理流程：

质量过滤：删除低质量、乱码内容
去重：避免重复内容
隐私消除：去除个人敏感信息
分词（Tokenization）：把文本切成一个个Token

2.3 什么是Token？

Token是大模型处理文本的基本单位，可以理解为"字"或"词"。

换算关系：

1个英文字符 ≈ 0.3个Token
1个中文字符 ≈ 0.6个Token

举例：

原文："我爱学习AI"
Token化：["我", "爱", "学习", "AI"]
Token数量：约4个

2.4 训练需要多少算力？

预训练是"烧钱"的环节：

模型	参数量	GPU数量	训练时间
GPT-3	1750亿	约1000块	数周
BLOOM	1760亿	384块A100	3.5个月

为什么这么贵？

模型参数庞大（数百亿到千亿级别）
数据量巨大（数千亿Token）
需要高性能GPU集群

2.5 预训练后得到什么？

预训练完成后，得到基础模型（Base Model）。

基础模型的能力：

掌握了大量语言规律
记住了很多世界知识
但不会按照人类指令回答问题

🤔 思考题：为什么基础模型不能直接用？

因为它的训练目标是"预测下一个字"，而不是"回答问题"。你问"今天天气怎么样"，它可能会继续写"怎么样呢，我也不知道"——因为它以为你在让它续写句子，而不是问问题！

三、第二阶段：有监督微调(SFT)——学会"听指令"

3.1 SFT是什么？

有监督微调（Supervised Finetuning，SFT），也叫指令微调，就是教模型理解人类指令并按要求回答。

类比：

预训练学会了"说话"，SFT学会了"听话"——理解用户想要什么。

3.2 SFT数据长什么样？

SFT数据是"指令+回答"的配对：

示例数据：

{"instruction": "复旦大学有几个校区？","output": "复旦大学现有4个校区，分别是邯郸校区、新江湾校区、枫林校区和张江校区..."
}

数据量：通常只需要几万条高质量数据（比预训练少得多！）

3.3 数据怎么构建？

有四种主要方法：

方法	说明	优点	缺点
手动构建	人工编写指令和回答	高质量、可解释	费时费力
数据集转换	整合现有开源数据集	多样性、规模大	需格式标准化
自动构建	用LLM生成指令（Self-Instruct）	高效、可扩展	质量需过滤
综合模式	结合多种方法	兼顾各方面	流程复杂

Self-Instruct流程：

用GPT生成任务指令
生成对应的输入输出
过滤低质量数据（相似度过滤）
形成训练数据集

3.4 一个有趣的发现：表层对齐假设

研究发现，高质量的数据量可能不需要那么多！

实验结果：LLaMA 65B + 1000条高质量数据（LIMA）的效果，竟然和52000条数据（Alpaca）差不多！

这说明：模型的能力主要来自预训练，SFT只是教它怎么"展示"这些能力。

3.5 SFT后的模型能做什么？

SFT模型具备：

理解用户指令的能力
基本的问答、翻译、摘要能力
对未知任务的泛化能力

很多开源模型（如ChatGLM、Vicuna、MOSS）都是SFT模型，效果可以达到ChatGPT的90%！

四、第三阶段：奖励建模(RM)——学会"评判好坏"

4.1 RM是什么？

奖励建模（Reward Modeling），就是训练一个模型来判断回答的质量高低。

类比：

RM就像一个"阅卷老师"，给每个答案打分。

4.2 RM数据怎么构建？

RM数据是"指令+多个回答+排序"：

示例数据：

指令："如何提高写作能力？"回答A（排第1）：多读多写，刻意练习...
回答B（排第2）：每天写日记...
回答C（排第3）：随便写就行...标注者按质量排序：A > B > C

数据量：通常需要百万条对比数据！

4.3 RM模型怎么训练？

RM本质上是一个二分类模型：

给定两个回答A和B，判断哪个更好：

输入：指令 + 回答A + 回答B
输出：A更好的概率

4.4 RM为什么重要？

RM的准确率直接决定下一阶段强化学习的效果！

如果RM判断错误，模型就会"学歪"——把差的回答当成好的。

五、第四阶段：强化学习(RL)——最终"精益求精"

5.1 RL是什么？

强化学习（Reinforcement Learning），就是用RM的反馈，进一步优化模型。

类比：

RL就像学生根据老师的评分，不断改进自己的写作技巧。

5.2 RL的核心流程

详细流程：

用户给出指令
SFT模型生成回答
RM对回答打分（奖励）
根据奖励调整模型参数
使得模型倾向于生成高分回答

5.3 RL有什么问题？

RL有几个挑战：

稳定性不高：训练容易发散
超参数众多：调参难度大
多样性降低：模型可能变得"保守"

💡 有趣发现：Andrej Karpathy指出，RL会使模型输出的"熵降低"，也就是变得更确定、更安全，但也可能减少创造性。

5.4 RL之后得到什么？

最终得到的RL模型，就是像ChatGPT、Claude这样的产品级模型。

它具备：

理解复杂指令
生成高质量回答
较少的幻觉和错误

六、完整流程回顾

让我们用一个表格总结四个阶段：

阶段	目标	数据	算力	时间	产出
预训练	学习语言和知识	数千亿Token	1000+GPU	数周	Base Model
SFT	学会理解指令	数万条指令-回答	1-100GPU	数天	SFT Model
RM	学会评判质量	百万条对比排序	1-100GPU	数天	RM Model
RL	优化回答质量	十万条指令	1-100GPU	数天	ChatGPT