当前位置：首页 > news >正文

你用的ChatGPT，99%的“努力”都在你根本看不见的地方

news 2026/4/23 23:05:02

用AI用得越久，是不是越觉得有那么点味儿了。能写诗、写编码、解数学题，还能和你谈人生哲学，给你灌心灵鸡汤。

但你现在用的ChatGPT，并不是生来就这样。

它是个养成系AI，经过了复杂且耗资庞大的养成历程，才蜕变出今天这个样子。

今天一起来看看，像ChatGPT这样的大模型，大神们是怎么把它从“一问三不知”训练到“百科全书”的。

先上个暴论：你用的ChatGPT，99%的“努力”都在你根本看不见的地方

很多人以为GPT就是“喂数据，出结果”。

太天真了。

大神Karpathy画了一张图，把GPT的训练拆成四个阶段——预训练、有监督微调、奖励建模、强化学习。

这四个阶段里，预训练阶段就吃掉了99%的计算资源和时间。

后面三个加起来，只能算毛毛雨。

来，我们一层层扒开看。

第一阶段：硬塞知识——预训练

想象一下，你把一张白纸，扔进了整个互联网的数据库。

维基百科、GitHub论文、代码、几百万本书、全网能爬的网页.....海量数据，一股脑全部塞给它。

这个阶段，就叫预训练。

那它到底在学什么？很简单，就一件事：猜下一个词。

你给它一句“今天天气真”，它拼命学习，猜出你下一个蹦出来的词是“好”。

这一句简单的话背后要烧掉的规模非常惊人：用几千张顶级显卡，训练好几个月，烧掉数百万甚至上千万美元！

在这个过程中，它学会了语言的统计规律、语法和事实知识。但这个时候的它，还只是个文本续写的机器。

你跟它说“写一首关于面包的诗”。

它可能会回你“写一首关于奶酪的诗，写一首关于......”

因为它只是在模仿它看过的数据文档，脑子里根本不懂你是在问它。

是不是感觉它像个复读机？别急，“革命”才刚刚开始。

第二阶段：请家教——监督微调

只是一个续写机器？不行，我们要的是一个能“回答问题”的助手。

那怎么办？大神们提出的解决方式就是——请“家教”。

雇一批人类老师，准备海量的高质量问答。比如：

提问：为什么有些大公司能压着工资，让很多人不得不接受底薪？从经济学角度讲讲。

回答：（一篇逻辑、结构清晰、引用准确的短文）

然后，我们让这个“续写机器”，继续用它之前“猜下一个词”的方式，去不断学习这些对话范例。

这个过程叫——有监督微调。

相当于给它做定向培训，让它学会人类问问题的方式、和我们期待的回答方式。

训练完，是有点“助手”的样子了，能直接回答问题。但总感觉差点意思，水平参差不齐的，有时候还不错，有时候很啰嗦，不够准确。

为啥？因为助手的水平，取决于家教的水平。

所以到底怎么才算“好的回答”？光靠几个人类老师就能说了算吗？

第三阶段：找个裁判——奖励建模

为了让AI变得更顶尖，OpenAI放了大招：RLHF（从人类反馈中强化学习）

这次不给它喂标准答案，而是让它做选择题。

问同一个问题，让SFT模型（监督微调）生成多个不同版本的答案。然后，让人类当裁判，来给这些回答排序，谁好谁坏一目了然。

用了无数个这样裁判的结果，训练出了一个奖励模型。这个模型自己就会判断：什么样的回答，才是人类想要的回答。

第四阶段：自己“卷”自己——强化学习

第三阶段过后，“裁判”模型就位，准备开赛，让选手（SFT模型）上场。

面对无数个不同领域的新问题，不断地生成回答。每生成一个回答，就请“裁判”打个分。

分数高？
AI会觉得：太好了！这个回答里的逻辑、用词、句式都会被强化，下次多用！
分数低？
AI：完蛋了，人类不喜欢，会被惩罚，下次避免。

就这样，在“生成-打分-调整”的无限循环中，AI的回答，被一点点打磨得越来越符合人类的偏好。

到这里，你现在所看到的ChatGPT，出来了。

所以它真的无所不能了吗？

还早呢！就算经历了复杂繁琐的训练，现在的AI，本质上还是个死脑筋。

它不会反思：它不知道“自己不知道”，就算是说错了也会硬着头皮编下去。
它不会用工具：你让它算复杂数学题，它能硬算，但很容易算错。它不知道自己可以用计算器。
它知识会过期：它脑子里的知识日期截止在训练数据的那一天，后面发生的事情，你得亲自告诉它。

那我们怎么办？

这个时候提示词工程（Prompt Engineering）就火了。说白了，就是用各种各样的技巧，去弥补它缺失的“思考过程”。

让它一步一步想：在问题前加上“让我们一步步思考”，把整个推理过程拉长，它能表现更好，答案也能更准确。
给它开外挂：主动告诉它“你数学不好，面对复杂的计算请调用这个计算器API”，或者直接把最新的资料喂给它，它就懂了。

当它的裁判：同一个问题让它生成多个答案，我们亲自挑最好的，或者让它自己评判哪个答案最准确。

最后说两句

所以，原来一个简单的对话框背后，都是数据、算力、算法和人类智慧（和头发）的疯狂堆叠。

它没那么神，也没那么蠢。

说白了，它就是个业务水平超强但一根筋的工具人。

下次和ChatGPT聊天时，可以试着调侃它“哟，又进步了？被RLHF骂得够狠吧！”

不过，技术就是个边夸边骂，连滚带爬往前跑的过程。

今天它叫ChatGPT，明天可能又换个新名字。但核心没变：AI再聪明，也得靠人调教；用得好是神器，用不好就是个丢仓库的垃圾。

查看全文

http://www.jsqmd.com/news/689544/

保姆级教程：手把手教你优化SA8155 QNX系统启动时间（从32ms到秒级）

FHE-SQL全同态加密数据库性能优化实战

云顶之弈悬浮助手：提升你的策略决策效率

从Java到前端：一名全栈开发者的成长之路

抖音无水印下载神器：GitHub_Trending/do/douyin-downloader终极使用指南

CRNN里的CTC Loss到底是咋工作的？用‘连连看’和‘消消乐’给你讲明白

2026年AI生成PPT横评：5款工具实测，哪个最好用？

开发环境救星：把整套Win+Linux+MySQL服务塞进移动固态硬盘，随插随用还能内网穿透

Unity URP角色头发渲染避坑指南：从面片建模到深度排序的完整流程

2026年天虹提货券回收专业平台怎么选：实测推荐鼎鼎收。 - 鼎鼎收礼品卡回收

03-Git跟踪的对象有哪些？

别只改源文件！彻底解决Python‘collections has no attribute’错误的三种思路（以live-server为例）

多摩川绝对值编码器CPLD FPGA通信源码（VHDL格式协议说明书）

从网卡到代码：手把手带你用Solarflare onload零改造加速现有Socket应用

Rockchip RK3576嵌入式SoM架构与工业应用解析

终结二维监控，开启室内三维无感定位时代——面向楼宇、园区与高敏感区域的多视角视觉定位方案

RAG与RAGFlow详解：从原理到应用

机器学习工程师在媒体行业的实战经验与MLOps架构解析

树莓派5到手别急着通电！保姆级Pi Imager烧录避坑指南（含SD卡选购与验证）

为什么92%的Docker集群仍在用静态limit？Docker 27动态配额的3大隐藏能力，DevOps团队已紧急启用

基于Pixhawk与ROS的无人车自主导航（一）：底盘驱动与固件配置实战

多模态AI技术解析：从原理到行业应用实践

免费开源的WPS AI插件察元AI助手:globalSettings：文件与 localStorage 双读策略

Qt Creator新建QML项目踩坑记：为什么选了Qt 5.8就报‘No valid kits found’？

从OOSEM到MagicGrid：一文理清主流MBSE方法论，帮你找到最适合团队的那一款

SAP自动化新思路：当Python遇到Scripting Tracker，如何优雅地绕过SAP GUI Scripting的授权难题？

室内空间管理为什么必须走向“高精度无感感知”——基于镜像视界（浙江）科技有限公司核心技术体系的下一代空间智能方案

保姆级教程：在Colab和本地用safetensors加速你的Hugging Face模型加载

如何用Resemble Enhance实现专业级语音降噪与增强：4大特色让你轻松优化音频质量

AFL内核探秘：从插桩到反馈的闭环模糊测试引擎