当前位置: 首页 > news >正文

你用的ChatGPT,99%的“努力”都在你根本看不见的地方

用AI用得越久,是不是越觉得有那么点味儿了。能写诗、写编码、解数学题,还能和你谈人生哲学,给你灌心灵鸡汤。

但你现在用的ChatGPT,并不是生来就这样。

它是个养成系AI,经过了复杂且耗资庞大的养成历程,才蜕变出今天这个样子。

今天一起来看看,像ChatGPT这样的大模型,大神们是怎么把它从“一问三不知”训练到“百科全书”的。

先上个暴论:你用的ChatGPT,99%的“努力”都在你根本看不见的地方

很多人以为GPT就是“喂数据,出结果”。

太天真了。

大神Karpathy画了一张图,把GPT的训练拆成四个阶段——预训练、有监督微调、奖励建模、强化学习。

这四个阶段里,预训练阶段就吃掉了99%的计算资源和时间。

后面三个加起来,只能算毛毛雨。

来,我们一层层扒开看。

第一阶段:硬塞知识——预训练

想象一下,你把一张白纸,扔进了整个互联网的数据库。

维基百科、GitHub论文、代码、几百万本书、全网能爬的网页.....海量数据,一股脑全部塞给它。

这个阶段,就叫预训练。

那它到底在学什么?很简单,就一件事:猜下一个词。

你给它一句“今天天气真”,它拼命学习,猜出你下一个蹦出来的词是“好”。

这一句简单的话背后要烧掉的规模非常惊人:用几千张顶级显卡,训练好几个月,烧掉数百万甚至上千万美元!

在这个过程中,它学会了语言的统计规律、语法和事实知识。但这个时候的它,还只是个文本续写的机器。

你跟它说“写一首关于面包的诗”。

它可能会回你“写一首关于奶酪的诗,写一首关于......”

因为它只是在模仿它看过的数据文档,脑子里根本不懂你是在问它。

是不是感觉它像个复读机?别急,“革命”才刚刚开始。

第二阶段:请家教——监督微调

只是一个续写机器?不行,我们要的是一个能“回答问题”的助手。

那怎么办?大神们提出的解决方式就是——请“家教”。

雇一批人类老师,准备海量的高质量问答。比如:

  • 提问:为什么有些大公司能压着工资,让很多人不得不接受底薪?从经济学角度讲讲。

  • 回答:(一篇逻辑、结构清晰、引用准确的短文)

然后,我们让这个“续写机器”,继续用它之前“猜下一个词”的方式,去不断学习这些对话范例。

这个过程叫——有监督微调。

相当于给它做定向培训,让它学会人类问问题的方式、和我们期待的回答方式。

训练完,是有点“助手”的样子了,能直接回答问题。但总感觉差点意思,水平参差不齐的,有时候还不错,有时候很啰嗦,不够准确。

为啥?因为助手的水平,取决于家教的水平。

所以到底怎么才算“好的回答”?光靠几个人类老师就能说了算吗?

第三阶段:找个裁判——奖励建模

为了让AI变得更顶尖,OpenAI放了大招:RLHF(从人类反馈中强化学习)

这次不给它喂标准答案,而是让它做选择题。

问同一个问题,让SFT模型(监督微调)生成多个不同版本的答案。然后,让人类当裁判,来给这些回答排序,谁好谁坏一目了然。

用了无数个这样裁判的结果,训练出了一个奖励模型。这个模型自己就会判断:什么样的回答,才是人类想要的回答。

第四阶段:自己“卷”自己——强化学习

第三阶段过后,“裁判”模型就位,准备开赛,让选手(SFT模型)上场。

面对无数个不同领域的新问题,不断地生成回答。每生成一个回答,就请“裁判”打个分。

  • 分数高?

    AI会觉得:太好了!这个回答里的逻辑、用词、句式都会被强化,下次多用!

  • 分数低?

    AI:完蛋了,人类不喜欢,会被惩罚,下次避免。

就这样,在“生成-打分-调整”的无限循环中,AI的回答,被一点点打磨得越来越符合人类的偏好。

到这里,你现在所看到的ChatGPT,出来了。

所以它真的无所不能了吗?

还早呢!就算经历了复杂繁琐的训练,现在的AI,本质上还是个死脑筋。

  • 它不会反思:它不知道“自己不知道”,就算是说错了也会硬着头皮编下去。

  • 它不会用工具:你让它算复杂数学题,它能硬算,但很容易算错。它不知道自己可以用计算器。

  • 它知识会过期:它脑子里的知识日期截止在训练数据的那一天,后面发生的事情,你得亲自告诉它。

那我们怎么办?

这个时候提示词工程(Prompt Engineering)就火了。说白了,就是用各种各样的技巧,去弥补它缺失的“思考过程”。

  • 让它一步一步想:在问题前加上“让我们一步步思考”,把整个推理过程拉长,它能表现更好,答案也能更准确。

  • 给它开外挂:主动告诉它“你数学不好,面对复杂的计算请调用这个计算器API”,或者直接把最新的资料喂给它,它就懂了。

  • 当它的裁判:同一个问题让它生成多个答案,我们亲自挑最好的,或者让它自己评判哪个答案最准确。

最后说两句

所以,原来一个简单的对话框背后,都是数据、算力、算法和人类智慧(和头发)的疯狂堆叠。

它没那么神,也没那么蠢。

说白了,它就是个业务水平超强但一根筋的工具人。

下次和ChatGPT聊天时,可以试着调侃它“哟,又进步了?被RLHF骂得够狠吧!”

不过,技术就是个边夸边骂,连滚带爬往前跑的过程。

今天它叫ChatGPT,明天可能又换个新名字。但核心没变:AI再聪明,也得靠人调教;用得好是神器,用不好就是个丢仓库的垃圾。

http://www.jsqmd.com/news/689544/

相关文章:

  • 保姆级教程:手把手教你优化SA8155 QNX系统启动时间(从32ms到秒级)
  • FHE-SQL全同态加密数据库性能优化实战
  • 云顶之弈悬浮助手:提升你的策略决策效率
  • 从Java到前端:一名全栈开发者的成长之路
  • 抖音无水印下载神器:GitHub_Trending/do/douyin-downloader终极使用指南
  • CRNN里的CTC Loss到底是咋工作的?用‘连连看’和‘消消乐’给你讲明白
  • 2026年AI生成PPT横评:5款工具实测,哪个最好用?
  • 开发环境救星:把整套Win+Linux+MySQL服务塞进移动固态硬盘,随插随用还能内网穿透
  • Unity URP角色头发渲染避坑指南:从面片建模到深度排序的完整流程
  • 2026年天虹提货券回收专业平台怎么选:实测推荐鼎鼎收。 - 鼎鼎收礼品卡回收
  • 03-Git跟踪的对象有哪些?
  • 别只改源文件!彻底解决Python‘collections has no attribute’错误的三种思路(以live-server为例)
  • 多摩川绝对值编码器CPLD FPGA通信源码(VHDL格式协议说明书)
  • 从网卡到代码:手把手带你用Solarflare onload零改造加速现有Socket应用
  • Rockchip RK3576嵌入式SoM架构与工业应用解析
  • 终结二维监控,开启室内三维无感定位时代——面向楼宇、园区与高敏感区域的多视角视觉定位方案
  • RAG与RAGFlow详解:从原理到应用
  • 机器学习工程师在媒体行业的实战经验与MLOps架构解析
  • 树莓派5到手别急着通电!保姆级Pi Imager烧录避坑指南(含SD卡选购与验证)
  • 为什么92%的Docker集群仍在用静态limit?Docker 27动态配额的3大隐藏能力,DevOps团队已紧急启用
  • 基于Pixhawk与ROS的无人车自主导航(一):底盘驱动与固件配置实战
  • 多模态AI技术解析:从原理到行业应用实践
  • 免费开源的WPS AI插件 察元AI助手:globalSettings:文件与 localStorage 双读策略
  • Qt Creator新建QML项目踩坑记:为什么选了Qt 5.8就报‘No valid kits found’?
  • 从OOSEM到MagicGrid:一文理清主流MBSE方法论,帮你找到最适合团队的那一款
  • SAP自动化新思路:当Python遇到Scripting Tracker,如何优雅地绕过SAP GUI Scripting的授权难题?
  • 室内空间管理为什么必须走向“高精度无感感知”——基于镜像视界(浙江)科技有限公司核心技术体系的下一代空间智能方案
  • 保姆级教程:在Colab和本地用safetensors加速你的Hugging Face模型加载
  • 如何用Resemble Enhance实现专业级语音降噪与增强:4大特色让你轻松优化音频质量
  • AFL内核探秘:从插桩到反馈的闭环模糊测试引擎