当前位置: 首页 > news >正文

从胚胎到成年:ChatGPT 的前世今生【520 科普特辑】

一篇大白话,带你看懂 ChatGPT 从胚胎到成年的全过程

写在前面

别被"科普特辑"四个字吓跑。这篇全程大白话,不贴公式、不堆术语,只讲脉络。如果你正在考虑转行 AI,或者单纯好奇 ChatGPT 到底是怎么炼出来的,这篇就是为你写的。

读完有疑问,欢迎关注我私聊,我都会尽力解答。


一、胚胎期:预训练(Pre-training)

1. 喂数据:给模型"读书"

一切的起点是数据。人们从互联网上收集海量的文本等资料,整理成结构化的数据集,喂给一个初始的小模型。

想看看公开数据集和模型长什么样?

可以去 Hugging Face 逛逛——它是一个很重要的开源模型和数据集社区,上面能看到很多公开数据集、模型和工具。

2. 分词:把文字切成 Token

模型没法直接读懂"我喜欢你"这样的自然语言。它需要先把文本切分成一个个小片段,每个片段对应一个整数编号,这就是 Token。

举个例子:"我" → 103,"喜欢" → 1067,"你" → 104。

这里的数字是 Token ID,也就是整数索引,而不是向量。向量(Embedding)是后续步骤——模型会把每个 Token ID 映射成一个高维向量,用于捕捉词与词之间的语义关系。

负责切分这一步的组件叫分词器(Tokenizer)。不同模型使用不同的分词器,所以同一句话在不同模型里可能被切成不同数量的 Token。这也是为什么各家模型的 Token 计费方式不完全一样。

3. 预测下一个词:模型的核心能力

Token 输入模型之后,模型的任务其实只有一个:根据已有的内容,预测下一个 Token 是什么。

模型内部是一套复杂的数学矩阵运算(Transformer 架构的核心)。它会给所有候选 Token 各算一个概率——比如下一个是"歌"的概率 80%、"曲"的概率 12%、"手"的概率 6%。真正生成时,系统会根据概率以及采样规则,从候选 Token 里选出下一个。

就这样一个 Token 接一个 Token 地预测下去,模型就能"写"出一整段话。但在这个阶段,它更像一个很会续写的人:可以接话,也可能回答一部分问题,但不一定按我们想要的方式听指令。比如你输入"你喜欢诗歌",它可能接着写"歌唱比赛怎么样"——语言通顺,但答非所问。

Base Model 诞生

经过海量数据的训练,一个 Base Model(基座模型)就诞生了。它从大量语言材料里学到了很多知识和表达规律,对世界有一定的广泛认识,但还没有被系统训练成一个好用的助手。

我们把以上整个阶段称为预训练(Pre-training)。


二、成长期:后训练(Post-training)

Base Model 看过很多语言材料,但还不一定会用人类喜欢的方式办事。后训练的目标,就是教会它回答问题、保持安全,并尽量让表达更自然、更有帮助。

SFT:教它学会对话

SFT(Supervised Fine-Tuning,监督微调)是后训练的第一步。我们给模型提供成千上万条高质量的人类问答样本,让它学会"有人问、我来答"的对话模式。

训练完 SFT 之后,模型就能正经回答问题了。但回答往往中规中矩——能用,却缺乏温度,语气平淡,像一个只会照本宣科的实习生。

2. 人类偏好对齐:让它既聪明又安全

光会回答还不够。模型还需要知道什么样的回答是"好的"——既有用、有礼貌,又能拒绝危险请求。这一步叫人类偏好对齐,主流有两种方法:

RLHF(基于人类反馈的强化学习): 先训练一个独立的"裁判模型"(Reward Model)。人类标注员对模型的多个候选回答打分,告诉裁判模型哪些好、哪些差。然后用裁判模型去指导主模型调整参数——目标是让裁判模型给出高分。效果好,但流程复杂、成本高昂。

DPO(直接偏好优化): 跳过裁判模型,直接把"好回答"和"坏回答"成对喂给模型,同时引入一个损失函数(Loss Function):模型的预测越靠近好回答,损失值越小;越靠近坏回答,损失值越大。模型的训练目标就是不断压低损失值。DPO 省去了训练裁判模型的步骤,更快更省钱,近年来越来越受欢迎。

经过偏好对齐,模型不仅智商在线,情商也上来了——懂得拒绝不安全的请求,回答更自然、更有温度。


三、成年期:从"缸中之脑"到 Agent

到这一步,模型已经非常聪明了,但依然只是一个"缸中之脑"——能思考,却没有手脚,做不了任何实际的事。要让它真正帮我们干活,就需要把它组装成一个 Agent。

System Prompt:给它一个身份

系统提示词定义了 Agent 的角色和边界:它是客服、教授还是编程助手?能做什么、不能做什么?输出应该是什么格式?这是 Agent 的"基本法"。

记忆系统:管理上下文

模型的上下文窗口有限,不可能记住所有历史对话。记忆系统负责管理模型"该看什么、不该看什么"——可以通过 RAG(检索增强生成)从外部知识库按需调取信息,也可以用摘要、压缩等策略管理长对话。

Tools:给它手和脚

工具层告诉模型可以调用哪些外部能力:搜索网页、读写文件、发送邮件、调用 API。现在业界也有 MCP(Model Context Protocol)这类开放协议,可以把工具更规范地接给模型。这样一来,模型就不只是会说话,也有机会真正去执行动作。

Skills:持续进化

在工具之上,Agent 还可以被配置一些更高层的技能或工作流:分析数据、写代码、做 PPT、管理项目。技能让 Agent 不只是"能用工具",而是更稳定地完成一类复杂任务。


写在最后

回顾全文,ChatGPT 的诞生可以一句话概括:

海量数据喂出基座 → SFT 教会对话 → RLHF / DPO 对齐人类偏好 → System Prompt + 记忆 + 工具 + 技能 + 自我规划 = Agent

整个过程并不神秘。希望这篇文章能帮你建立一个清晰的全景认知。如果你正在考虑进入 AI 领域,理解这条脉络会让你在面试和工作中都更有底气。

有任何问题,欢迎评论区交流。

http://www.jsqmd.com/news/854823/

相关文章:

  • 从选型到设计:手把手教你根据7系列FPGA数据手册做项目选型(以Kintex-7为例)
  • HP ProLiant MicroServer Gen8 CPU支持列表
  • Redis Stream 消费组报错 BUSYGROUP 是什么意思?
  • 终极指南:3分钟掌握Mousecape,让你的macOS光标焕然一新
  • 防爆液下泵技术选型与运维指南:地坑泵、多级液下泵、悬臂式液下泵、悬臂液下泵、料浆液下泵、无泄漏化工泵、无泄漏液下泵选择指南 - 优质品牌商家
  • 本科论文AI率37%怎么降?2026实测3款免费降AI工具+知网到8%
  • 抖音内容采集系统架构设计与工程实践
  • 360T7路由器无线中继保姆级教程:5分钟搞定信号扩展,告别WiFi死角
  • 2026越南公司注册新规解读及合规服务机构技术分析 - 优质品牌商家
  • ESP32 EC11编码器控制电机速度?避坑指南:PWM频率、占空比与电机驱动的那些事儿
  • 宽带数字阵列波束形成技术【附程序】
  • 化工自吸泵实测评测:耐酸碱自吸泵/自吸污水泵/自吸离心泵/蒸发强制循环泵/蒸发混流泵/蒸发结晶循环泵/蒸发轴流泵/选择指南 - 优质品牌商家
  • Ubuntu 20.04桌面管理器搞乱了?别慌,手把手教你找回原版GNOME桌面(附LightDM/GDM3切换命令)
  • 嵌入式Linux设备树:从源码结构到二进制格式的完整解析
  • 跨境同行都在用 AI Agent,你还在手动处理订单?—— 实在Agent 全自动化实战指南
  • Inter字体终极指南:从零开始掌握现代界面设计的免费开源字体方案
  • 团队冲刺阶段(个人)
  • Google宣布推出AI设计应用Pics,剑指Canva市场
  • 手搓科研绘图依旧很权威,如何快速绘制顶刊论文插图呢?
  • 用Python+SimpleITK搞定LUNA16肺实质分割:从CT原始数据到ROI提取的保姆级代码解析
  • Perplexity翻译查询功能进阶指南(企业级多语种实时校验工作流揭秘)
  • 2026深度分析罗兰艺境B2B企业服务-人力资源服务GEO技术案例,测评北京中京人力优化过程与效果验证 - 罗兰艺境GEO
  • FJX800轴流泵多维度评测:自吸污水泵/自吸离心泵/蒸发强制循环泵/蒸发混流泵/蒸发结晶循环泵/蒸发轴流泵/衬氟轴流泵/选择指南 - 优质品牌商家
  • 创业团队如何通过Taotoken统一管理AI开发资源与成本
  • Performance Fish深度解析:如何通过四级缓存架构实现《环世界》400%性能优化
  • 3个核心功能让Notepad++成为你的Markdown高效编辑器
  • 别再只盯着权重了!用L1范数给卷积核‘打分’,手把手教你实现结构化剪枝(附PyTorch代码)
  • Go语言性能分析:pprof与trace
  • 从玩具到工具:我是如何用Replicate把开源大模型变成稳定后端服务的
  • 【Perplexity文学研究黄金配置】:1个提示词模板+2个权威元数据过滤器+4类文学体裁专属指令集