当前位置：首页 > news >正文

从胚胎到成年：ChatGPT 的前世今生【520 科普特辑】

news 2026/7/15 2:45:23

一篇大白话，带你看懂 ChatGPT 从胚胎到成年的全过程

写在前面

别被"科普特辑"四个字吓跑。这篇全程大白话，不贴公式、不堆术语，只讲脉络。如果你正在考虑转行 AI，或者单纯好奇 ChatGPT 到底是怎么炼出来的，这篇就是为你写的。

读完有疑问，欢迎关注我私聊，我都会尽力解答。

一、胚胎期：预训练（Pre-training）

1. 喂数据：给模型"读书"

一切的起点是数据。人们从互联网上收集海量的文本等资料，整理成结构化的数据集，喂给一个初始的小模型。

想看看公开数据集和模型长什么样？

可以去 Hugging Face 逛逛——它是一个很重要的开源模型和数据集社区，上面能看到很多公开数据集、模型和工具。

2. 分词：把文字切成 Token

模型没法直接读懂"我喜欢你"这样的自然语言。它需要先把文本切分成一个个小片段，每个片段对应一个整数编号，这就是 Token。

举个例子："我" → 103，"喜欢" → 1067，"你" → 104。

这里的数字是 Token ID，也就是整数索引，而不是向量。向量（Embedding）是后续步骤——模型会把每个 Token ID 映射成一个高维向量，用于捕捉词与词之间的语义关系。

负责切分这一步的组件叫分词器（Tokenizer）。不同模型使用不同的分词器，所以同一句话在不同模型里可能被切成不同数量的 Token。这也是为什么各家模型的 Token 计费方式不完全一样。

3. 预测下一个词：模型的核心能力

Token 输入模型之后，模型的任务其实只有一个：根据已有的内容，预测下一个 Token 是什么。

模型内部是一套复杂的数学矩阵运算（Transformer 架构的核心）。它会给所有候选 Token 各算一个概率——比如下一个是"歌"的概率 80%、"曲"的概率 12%、"手"的概率 6%。真正生成时，系统会根据概率以及采样规则，从候选 Token 里选出下一个。

就这样一个 Token 接一个 Token 地预测下去，模型就能"写"出一整段话。但在这个阶段，它更像一个很会续写的人：可以接话，也可能回答一部分问题，但不一定按我们想要的方式听指令。比如你输入"你喜欢诗歌"，它可能接着写"歌唱比赛怎么样"——语言通顺，但答非所问。

Base Model 诞生

经过海量数据的训练，一个 Base Model（基座模型）就诞生了。它从大量语言材料里学到了很多知识和表达规律，对世界有一定的广泛认识，但还没有被系统训练成一个好用的助手。

我们把以上整个阶段称为预训练（Pre-training）。

二、成长期：后训练（Post-training）

Base Model 看过很多语言材料，但还不一定会用人类喜欢的方式办事。后训练的目标，就是教会它回答问题、保持安全，并尽量让表达更自然、更有帮助。

SFT：教它学会对话

SFT（Supervised Fine-Tuning，监督微调）是后训练的第一步。我们给模型提供成千上万条高质量的人类问答样本，让它学会"有人问、我来答"的对话模式。

训练完 SFT 之后，模型就能正经回答问题了。但回答往往中规中矩——能用，却缺乏温度，语气平淡，像一个只会照本宣科的实习生。

2. 人类偏好对齐：让它既聪明又安全

光会回答还不够。模型还需要知道什么样的回答是"好的"——既有用、有礼貌，又能拒绝危险请求。这一步叫人类偏好对齐，主流有两种方法：

RLHF（基于人类反馈的强化学习）：先训练一个独立的"裁判模型"（Reward Model）。人类标注员对模型的多个候选回答打分，告诉裁判模型哪些好、哪些差。然后用裁判模型去指导主模型调整参数——目标是让裁判模型给出高分。效果好，但流程复杂、成本高昂。

DPO（直接偏好优化）：跳过裁判模型，直接把"好回答"和"坏回答"成对喂给模型，同时引入一个损失函数（Loss Function）：模型的预测越靠近好回答，损失值越小；越靠近坏回答，损失值越大。模型的训练目标就是不断压低损失值。DPO 省去了训练裁判模型的步骤，更快更省钱，近年来越来越受欢迎。

经过偏好对齐，模型不仅智商在线，情商也上来了——懂得拒绝不安全的请求，回答更自然、更有温度。

三、成年期：从"缸中之脑"到 Agent

到这一步，模型已经非常聪明了，但依然只是一个"缸中之脑"——能思考，却没有手脚，做不了任何实际的事。要让它真正帮我们干活，就需要把它组装成一个 Agent。

System Prompt：给它一个身份

系统提示词定义了 Agent 的角色和边界：它是客服、教授还是编程助手？能做什么、不能做什么？输出应该是什么格式？这是 Agent 的"基本法"。

记忆系统：管理上下文

模型的上下文窗口有限，不可能记住所有历史对话。记忆系统负责管理模型"该看什么、不该看什么"——可以通过 RAG（检索增强生成）从外部知识库按需调取信息，也可以用摘要、压缩等策略管理长对话。

Tools：给它手和脚

工具层告诉模型可以调用哪些外部能力：搜索网页、读写文件、发送邮件、调用 API。现在业界也有 MCP（Model Context Protocol）这类开放协议，可以把工具更规范地接给模型。这样一来，模型就不只是会说话，也有机会真正去执行动作。

Skills：持续进化

在工具之上，Agent 还可以被配置一些更高层的技能或工作流：分析数据、写代码、做 PPT、管理项目。技能让 Agent 不只是"能用工具"，而是更稳定地完成一类复杂任务。

写在最后

回顾全文，ChatGPT 的诞生可以一句话概括：

海量数据喂出基座 → SFT 教会对话 → RLHF / DPO 对齐人类偏好 → System Prompt + 记忆 + 工具 + 技能 + 自我规划 = Agent

整个过程并不神秘。希望这篇文章能帮你建立一个清晰的全景认知。如果你正在考虑进入 AI 领域，理解这条脉络会让你在面试和工作中都更有底气。

有任何问题，欢迎评论区交流。

查看全文

http://www.jsqmd.com/news/854823/

从选型到设计：手把手教你根据7系列FPGA数据手册做项目选型（以Kintex-7为例）

HP ProLiant MicroServer Gen8 CPU支持列表

Redis Stream 消费组报错 BUSYGROUP 是什么意思？

终极指南：3分钟掌握Mousecape，让你的macOS光标焕然一新

防爆液下泵技术选型与运维指南：地坑泵、多级液下泵、悬臂式液下泵、悬臂液下泵、料浆液下泵、无泄漏化工泵、无泄漏液下泵选择指南 - 优质品牌商家

本科论文AI率37%怎么降？2026实测3款免费降AI工具+知网到8%

抖音内容采集系统架构设计与工程实践

360T7路由器无线中继保姆级教程：5分钟搞定信号扩展，告别WiFi死角

2026越南公司注册新规解读及合规服务机构技术分析 - 优质品牌商家

ESP32 EC11编码器控制电机速度？避坑指南：PWM频率、占空比与电机驱动的那些事儿

宽带数字阵列波束形成技术【附程序】

化工自吸泵实测评测：耐酸碱自吸泵/自吸污水泵/自吸离心泵/蒸发强制循环泵/蒸发混流泵/蒸发结晶循环泵/蒸发轴流泵/选择指南 - 优质品牌商家

Ubuntu 20.04桌面管理器搞乱了？别慌，手把手教你找回原版GNOME桌面（附LightDM/GDM3切换命令）

嵌入式Linux设备树：从源码结构到二进制格式的完整解析

跨境同行都在用 AI Agent，你还在手动处理订单？—— 实在Agent 全自动化实战指南

Inter字体终极指南：从零开始掌握现代界面设计的免费开源字体方案

团队冲刺阶段（个人）

Google宣布推出AI设计应用Pics，剑指Canva市场

手搓科研绘图依旧很权威，如何快速绘制顶刊论文插图呢？

用Python+SimpleITK搞定LUNA16肺实质分割：从CT原始数据到ROI提取的保姆级代码解析

Perplexity翻译查询功能进阶指南（企业级多语种实时校验工作流揭秘）

2026深度分析罗兰艺境B2B企业服务-人力资源服务GEO技术案例，测评北京中京人力优化过程与效果验证 - 罗兰艺境GEO

FJX800轴流泵多维度评测：自吸污水泵/自吸离心泵/蒸发强制循环泵/蒸发混流泵/蒸发结晶循环泵/蒸发轴流泵/衬氟轴流泵/选择指南 - 优质品牌商家

创业团队如何通过Taotoken统一管理AI开发资源与成本

Performance Fish深度解析：如何通过四级缓存架构实现《环世界》400%性能优化

3个核心功能让Notepad++成为你的Markdown高效编辑器

别再只盯着权重了！用L1范数给卷积核‘打分’，手把手教你实现结构化剪枝（附PyTorch代码）

Go语言性能分析：pprof与trace

从玩具到工具：我是如何用Replicate把开源大模型变成稳定后端服务的

【Perplexity文学研究黄金配置】：1个提示词模板+2个权威元数据过滤器+4类文学体裁专属指令集