当前位置：首页 > news >正文

大模型训练史：从“专精“到“都懂“再到“听话“的螺旋进化 | 程序员必学收藏指南

news 2026/7/2 10:00:15

大语言模型训练经历了螺旋式演进：早期阶段(如BERT)采用预训练+微调，一个任务一个模型；中期(GPT-2/3)追求无监督学习，实现零样本能力，但"不听话"；当前阶段(InstructGPT/ChatGPT)通过指令微调和人类反馈强化学习(RLHF)，使模型既博学又懂规矩，成为真正好用、安全的AI助手。这一演变揭示了大模型的终极目标不仅是拥有知识，更要能以人类期望的方式应用知识。

“从“专精”，到“都懂”，最后升级为“听话”。”

大语言模型的训练方法，其实一直在变化。它不是一条直线，更像是一个螺旋上升的过程：从依赖标注数据做微调，到试图摆脱标注、追求纯无监督，最后又回归到用“指令”来引导模型，并加入人类反馈来优化。

简单说，我们对AI的期待，从“专精一个任务”，到“什么都懂一点”，最后升级为“要懂规矩，能当助手”。

—

第一阶段：早期，一个任务一个模型

早期的代表是BERT、GPT-1。那时候的做法很简单：先让模型在海量无标签文本上“预训练”，学习基础知识；然后针对每个具体任务，比如情感分析或者机器翻译，再用专门的标注数据去“微调”它一下。

这种方法效果很好，但缺点也很明显：一个任务就得养一个模型，费时费力，而且模型学会了这个，就不会那个，没什么通用性。

—

第二阶段：中期，相信“规模能解决一切”

到了GPT-2和GPT-3的时代，OpenAI开始“叛逆”了。他们想挑战当时的主流做法，认为依赖标注数据做微调会让模型太“偏科”。

他们的核心理念是：只要模型足够大、数据足够多，它自己就能通过无监督学习，掌握所有知识。也就是说，不需要额外教，模型直接就能上手新任务，或者看几个例子就能学会。这被称为“零样本”或“少样本”学习。

GPT-3确实展现了惊人的知识储备和潜力，但用户很快发现了一个大问题：它虽然“知道”很多，但非常“不听话”。你需要绞尽脑汁设计开头提示（Prompt），才能勉强让它输出你想要的东西，而且结果很不稳定。它像一个有才华但不羁的学生，你需要用非常精确的语言才能引导它。

—

第三阶段：现在，成为“懂规矩的助手”

GPT-3的通用性让大家看到了希望，但它的“难用”也让人们反思。于是，以InstructGPT和后来的ChatGPT为代表，一种新的训练范式确立了。

大家发现，仅仅让模型“知道”是不够的，还得让它“懂得怎么用”。这就像给一个知识渊博的人穿上制服，教他如何以助手的身份来提供服务。

这个阶段的核心有两个：

指令微调：不再用零散的任务数据，而是用海量的“指令-回答”对，直接教模型怎么听懂人类的指令并做出恰当回应。这是让它“懂规矩”的第一步。
人类反馈强化学习（RLHF）：光教它听话还不够，还得让它输出人类更喜欢、更安全的内容。RLHF就是让人类来给模型的答案打分，然后通过这些反馈信号进一步优化模型，让它越来越符合我们的期待。

—

总结一下这个螺旋上升的过程

简单来说：

最早的SFT，是让模型 “会做题” ，解决特定问题。
然后，人们试图抛弃SFT，追求模型 “见多识广” ，拥有广泛的通用能力。
最后，大家又重新引入了SFT（升级为指令微调），结合RLHF，目标是让模型在见多识广的基础上，还 “懂规矩” ，成为一个真正好用、安全、能和人类顺畅协作的智能助手。

这个演变说明，大模型的终极目标，不仅仅是拥有海量知识，更重要的是能以我们期望的方式，把这些知识用好。

相关文章：