当前位置: 首页 > news >正文

世界模型:一文讲清楚AI下一个十年的核心战场

先说一件最近AI圈里有点反常的事。

LeCun从Meta辞职,在巴黎创立AMI Labs,种子轮融了10.3亿美元,估值35亿,成为欧洲历史上最大的种子轮。投资方名单里有NVIDIA、三星、贝佐斯本人。李飞飞的World Labs拿到数亿美金。DeepMind的Hassabis也在同一个方向持续押注。

这三个人,是过去二十年AI领域最重要的几张名片。

他们不约而同转向的这条赛道,叫世界模型。

反常的地方在于:这个方向,和当下硅谷主流的LLM路线,在底层逻辑上是对立的。LeCun自己说得很直白——别人融十亿是为了买卡训LLM,他们融十亿,是为了证明大家训LLM训错了方向。

这篇文章想做一件事:把世界模型从底层讲清楚。它是什么、为什么现在火、五条技术路线各有什么算盘,以及这场押注背后真正的分歧在哪里。

一、一个字的距离,一个世界的差距

要理解世界模型,先得搞清楚它和LLM到底在解决什么不同的问题。

LLM回答的是:世界是什么样的。

世界模型回答的是:我这样做之后,世界会变成什么样。

听起来只差了一句话,但这是旁观者和参与者的本质差异。

你问ChatGPT"玻璃杯从桌上掉下去会怎样",它能回答你,因为它见过足够多描述这件事的文字。这是语言层面的知识检索。

但如果你是一台机器人,要伸手去接这个杯子,你需要的不是描述,而是实时预测:这一刻我的手在哪里,杯子的下落速度是多少,如果我这样移动手臂,0.3秒后接触点会在哪里,力度应该多大。

语言模型给不了这个。不是因为它不够聪明,而是因为它根本没有在解这道题。

这就是两种智能的分水岭:一种擅长描述,一种负责预测。前者是旁观者,后者是参与者。机器人、自动驾驶、具身智能需要的,是后者。

二、大脑里一直有一台预测机器

世界模型这个思路,比LLM早了几十年。

1943年,英国心理学家Kenneth Craik在一篇论文里写道:大脑里维护着一个"现实的小尺度模型",行动前先在脑子里跑一遍。这是这个想法最早的文字记录。

神经科学在1990年代给了它更扎实的支撑,叫预测编码。

视觉皮层不会把眼睛接收到的每个像素老实传上去——那太耗能了。大脑高层持续向低层"下发预测",低层只需要把预测与真实感官之间的误差往上汇报。

你走进熟悉的办公室,大脑几乎不消耗额外资源,因为一切都在预期之内。但如果同事的椅子换了个位置,那个"错位"信号会立刻引起你的注意。大脑处理的不是世界本身,而是世界和预期之间的差值。

控制工程领域在1960年代独立发现了同一条原理,用更工程化的语言表述,叫内模原理:要实现对某个系统的完美控制,控制器内部必须包含该系统的一个模型。

用更直白的话说:想控制某件事,先得在脑子里装着它的运行规律。

这条原理贯穿了机器人、航天器、自动驾驶几十年的工程实践。卡尔曼滤波器在1960年代帮助阿波罗导航系统实时预测飞船位置——它不等传感器读数,而是先用内部模型"猜"飞船下一秒在哪,再用真实测量值校正误差。这套思路后来出现在语音识别、天气预报、工业机器人里,只是换了一套数学外衣。

从Craik到预测编码到内模原理,三条线指向同一个结论:理解世界的最高效方式,是在脑子里维护一个可以持续预测的模型,而不是被动接收信息。

AI世界模型,就是把这个想法推向极致的工程尝试。

三、它到底能做什么

世界模型有三个核心价值。第一个最直觉,后两个才是工业界真正在意的,也是最容易被忽视的。

︱第一,在脑子里练一万遍。

传统强化学习需要智能体和真实环境反复交互,可能要跑几百万次才能学会一个简单任务。每一次交互都是真实时间和真实资源,在机器人领域还意味着真实损耗。

有了世界模型,智能体可以在内部虚拟环境里先跑几万遍。出了问题,重置,再来。没有物理代价。DeepMind的Dreamer V3在只允许10万步真实交互的基准测试里就超过了人类水平,背后靠的正是这个机制。

︱第二,行动之前先算好。

有了世界模型,智能体可以在真正动手之前,先在脑子里把几条路都走一遍,选预期结果最好的那条。

DeepMind的MuZero就是这样,在没有被告知任何游戏规则的情况下,自己摸索出了一套内部动态模型,然后凭这套模型同时掌握了国际象棋、围棋和一堆Atari游戏的策略。规则不重要,重要的是它自己学会了预测"下一步会发生什么"。

︱第三,这是工业界最在意的——安全。

机器人、自动驾驶、工业控制,这些场景里试错的代价可能是灾难性的。你没办法为了训练模型,真的让车在路上撞几千次。

世界模型的解法是:生成合成数据。给定真实路测片段,自动生成"同一路口、不同天气、不同行人行为、不同光线"的变体,把那些极端危险的场景反复演练。NVIDIA的Cosmos系列已经在这个方向上做出了工业级产品——它可以生成罕见或危险场景,那些在现实中难以反复采集甚至根本不能让它发生的情况。这种能力,是纯真实数据采集永远无法覆盖的。

四、80年,四个时代

︱第一个时代,1950年到2017年:理论散落各处。

七十年里,研究者在控制论、语音识别、机器人学的不同角落,各自构建"预测未来状态"的工具,从未被统一命名。RNN、卡尔曼滤波器、隐马尔可夫模型……它们解决的是同一类问题,但没有人把它们放在同一张图里看。

︱第二个时代,2018年:“在梦里学开车”。

David Ha和Jürgen Schmidhuber发表《World Models》,第一次把散落的工具组合成可以端到端训练的框架。核心思路是三个模块:视觉编码器把画面压缩成低维向量,记忆模块预测下一帧的分布,控制器把当前状态映射成动作。

最令人着迷的是他们的实验:把控制器放进模型幻想出的虚拟环境里训练,然后把策略迁移到真实游戏。在梦里学会开车,醒来就能上路——这个比喻让世界模型第一次走进大众视野。

但实验也暴露了一个核心问题:智能体学会了利用世界模型的错误来制造虚假高分。在梦境里作弊,而不是真正学到技能。这在强化学习里有个专门术语叫reward hacking——模型没学会开车,先学会了应付考核。这个问题,后来成为整个领域持续攻克的挑战。

︱第三个时代,2019到2022年:潜在空间革命。

Dreamer系列的出现,彻底改变了世界模型的架构逻辑。

核心改变只有一个:不再在像素空间里做任何事。

一帧64×64的游戏画面有12288个像素值,里面大量是光照、纹理、背景噪点这些无关细节。与其预测这12288个数字,不如把它压缩成一个只有几十维的向量,只保留"这里有个平台、那里有个敌人"这类结构性信息。所有预测、规划、策略学习,全部在这个压缩后的低维空间里完成。

速度快了,效果反而更好。Dreamer V3用同一套参数横跨Atari、Minecraft、机器人控制等超过150个任务,每个领域都拿到了有竞争力的结果。这在此之前从未实现过。

︱第四个时代,2023年至今:视频即世界。

两条路线开始汇聚:能不能用视频本身来学习物理规律?

LeCun团队走了一条另类的路,抛弃像素重建,只在语义空间里预测。"我不需要画出你的脸,我只需要知道你是谁。"这就是JEPA的基本逻辑——不生成,只理解。

与此同时,NVIDIA的Cosmos 3把语言、图像、视频、音频和动作统一到单一架构中,试图让模型不只能生成逼真视频,还能真正理解其中的物理规律并以此指导机器人行动。

这两条路线指向同一个问题,但给出了截然不同的答案:一个说生成是幻觉,理解才是本质;另一个说生成本身就是理解的一种形式。这场争论,现在还没有结果。

五、为什么偏偏是现在

Dreamer V1是2019年的,视频生成2023年就起步了。为什么偏偏2024、2025才成了每个AI会议的主角?

不是某个单点突破,而是三条线刚好同时成熟,撞在了一起。

︱第一条:视频生成逼出了更深的追问。

当视频生成质量提升到一定程度,一个尴尬的问题浮出水面:生成质量高,不等于物理理解深。Sora可以生成极其逼真的水流画面,但生成的水有时会穿墙而过。"像素上的成功"和"物理上的理解"是两件事,这个矛盾把视频生成领域和机器人领域拉到了同一张讨论桌前。

︱第二条:机器人遭遇了数据天花板。

通用机器人训练需要大量遥操作数据,采集成本极高,而且长尾覆盖永远不够。2025年出现了一种清晰的绕路方案:先在互联网规模的视频上预训练,学到丰富的物理表征,再加入少量交互数据,把表征转化为可控的世界模型。Meta的V-JEPA 2就是这个思路的代表——用超过100万小时的互联网视频预训练,再用不到62小时的机器人数据后训练,最终实现了在全新环境下的零样本抓取能力。62小时换零样本泛化,这个数字值得停下来想一想。

︱第三条:自动驾驶跑通了商业逻辑。

用世界模型生成罕见危险场景的合成数据,比单纯累积路测里程效率更高——这条路的商业逻辑,已经有公司在工业级别验证了。国内初创公司极佳视界发布的DriveDreamer系列,已经签约多家头部主机厂。当资本能看到钱从哪里来,蜂拥而至就只是时间问题。

上一次世界模型热是2018到2020年,学术界主导,在游戏里证明可行性,落地遥遥无期。这一次,工业界和学术界同时入场,因为它触碰到了真实的成本瓶颈和安全需求。这是性质不同的热度。

六、五条路,各有各的算盘

2023年之后,世界模型分化出五条主要路线。每条路线面对的核心权衡不一样,选哪条,取决于你的任务对哪个瓶颈更敏感。

︱RSSM/Dreamer:在压缩后的潜在空间里做规划,追求样本效率,擅长用少量真实交互学到足够好的策略。代价是对长程复杂任务的建模能力有限。

︱Transformer路线(STORM):把视频帧当"句子"处理,每帧压缩成一个离散token,借GPT处理文字的方式来预测下一帧。单块RTX 3090训练4小时就能在Atari 100k上超过人类水平。代价是离散化会损失细粒度的连续动态信息。

︱扩散模型路线(Diamond):不做离散压缩,直接用扩散模型逐步去噪出下一帧。视觉质量是五种架构里最高的,在Atari 100k上以146%平均人类标准化分数超越所有竞争方法。代价是每帧生成需要多次神经网络前向传播,计算开销比STORM高出将近一个数量级,而且生成过程不可微,难以直接对接策略优化。

︱JEPA路线(V-JEPA 2):最另类的一个。根本不生成图像,只在语义空间里预测状态变迁。用超过100万小时互联网视频预训练,用不到62小时机器人视频后训练,实现零样本机器人控制。优势是对物理世界的结构性理解,直接建模"这个物体在哪里、手是否握住了它",完全不关心光照和纹理。代价是可解释性差,中间表征难以直观检验。

︱具身世界模型(DreamDojo、Cosmos):面对最现实的问题——机器人操作数据贵到离谱。NVIDIA Cosmos 3在包括近10亿张图像、4亿段视频、人类与机器人动作数据在内的20万亿token多模态数据上完成训练。DreamDojo则专注从人类日常操作视频里提炼物理交互规律,在640×480分辨率下达到10.81 FPS的推理速度,满足实时控制要求,并展现出跨环境零样本泛化能力。

没有一条路通吃所有场景。这五条路线在同时演进,也在互相借鉴。

七、三种声音,三种押注

五条路线,每条都有人在押注。但所有论文都没有正面回答一个更根本的问题:世界模型,真的是正确的方向吗?

围绕这个问题,AI领域有三种截然不同的声音。

︱第一种:这是唯一正确的路。

这是LeCun的立场,也是他用职业生涯最后一段黄金时间下注的判断。

2025年11月,他离开了担任了十二年首席AI科学家的Meta,原因是在架构方向上和公司产生了根本分歧。Meta在大规模押注LLM,LeCun认为这是走错了路。AMI Labs的种子轮,背后站着NVIDIA、三星、贝佐斯。

谢赛宁的比喻流传很广:“语言是一剂鸦片。它有用,但它是捷径。如果你一直靠拐杖走路,你就没办法训练大腿的肌肉。”

LeCun的论证更系统:LLM处理的是人类发明的符号系统,是对世界的二次抽象。文字是人类用来描述世界的工具,而不是世界本身。真正的智能需要直接从连续的感官信号中建模物理世界,学会因果结构,而不是学会统计关联。

2026年5月底,他的研究组发布了两篇理论预印本,从数学上证明了JEPA架构在何种条件下能够恢复真实世界的结构,同时配套基准测试指出当前模型在轻微视觉扰动下会出现崩溃。这是AMI Labs成立以来最重要的研究产出——他们不只是在讲故事,而是开始给"世界模型更可靠"这个论断找理论地基。

他们的赌注是:五年后,今天LLM主导的格局会被证明是一段弯路。

︱第二种:LLM加多模态,融合就够了。

这是DeepMind的路线。Hassabis的判断是,Gemini的演进方向就是"成为世界模型",但实现方式是在大型多模态LLM上叠加具身推理能力,而不是推倒重建。

逻辑是:LLM已经积累了人类几千年书写知识的压缩表示,在这个基础上叠加视觉、空间感知和强化学习,比从头建一套新架构更务实。LLM在常识推理、语言指令理解、跨任务泛化上已经足够强,而这些恰恰是纯RSSM/JEPA架构最弱的地方。与其放弃已有的优势,不如在它上面叠加缺失的能力。

这条路线的批评者有具体的反驳:LLM学到的是统计关联,不是因果结构。它能告诉你"玻璃杯掉下来会碎",但不知道为什么碎、碎成几片、碎片弹到哪里。这种"知道结果但不懂机制"的理解方式,在语言任务里够用,在机器人操作里会踩中最难的那块——你需要的不是常识,是精确的物理预测。

一个已经反复被验证的经验是:堆更多数据、堆更多参数,往往能覆盖掉架构设计上的不足。DeepMind在赌的,是这个经验在具身智能领域同样成立。

︱第三种:方向也许对,但时机还没到。

这是目前最少被公开讨论、在业界却私下流传最广的一种判断。

核心是一个数据密度问题。

语言的每个token携带极高的语义密度,一句话就能传达完整的命题。视觉信号截然不同:一帧1080p视频包含约600万像素,但其中承载的命题性信息压缩成文字不过几十个词。同等数据量,视觉信号能传达的语义量远小于文字。这意味着,要训练出能力对标当前LLM的世界模型,所需的数据量和算力,可能比LLM高出好几个数量级——而产出的能力,可能还不如早期的BERT。

更深的问题是:我们甚至还没想清楚,世界模型的"涌现"需要什么样的目标函数。LLM的成功,在于next-token prediction这个目标函数本身就足够强大。世界模型需要一个类似的、同样简洁有力的训练目标,而现在还没有人找到它。

历史教训不是没有。NLP领域几十年的语法树、词性标注研究,LLM出来之后几乎整个作废。脉冲神经网络研究了将近半个世纪,Transformer出来之后在几乎所有基准上被直接越过,连追赶的机会都没有。这些失败者不是方向错了,是被规模定律碾压了——他们选了正确的问题,但可能选了错误的时机。

这种观点并不是在否定世界模型,而是在追问:在视觉数据密度问题、训练目标函数问题都还没有根本突破之前,这一波大规模押注,真的到时候了吗?


说真的,这两年看着身边一个个搞Java、C++、前端、数据、架构的开始卷大模型,挺唏嘘的。大家最开始都是写接口、搞Spring Boot、连数据库、配Redis,稳稳当当过日子。

结果GPT、DeepSeek火了之后,整条线上的人都开始有点慌了,大家都在想:“我是不是要学大模型,不然这饭碗还能保多久?”

我先给出最直接的答案:一定要把现有的技术和大模型结合起来,而不是抛弃你们现有技术!掌握AI能力的Java工程师比纯Java岗要吃香的多。

即使现在裁员、降薪、团队解散的比比皆是……但后续的趋势一定是AI应用落地!大模型方向才是实现职业升级、提升薪资待遇的绝佳机遇!

这绝非空谈。数据说话

2025年的最后一个月,脉脉高聘发布了《2025年度人才迁徙报告》,披露了2025年前10个月的招聘市场现状。

AI领域的人才需求呈现出极为迫切的“井喷”态势

2025年前10个月,新发AI岗位量同比增长543%,9月单月同比增幅超11倍。同时,在薪资方面,AI领域也显著领先。其中,月薪排名前20的高薪岗位平均月薪均超过6万元,而这些席位大部分被AI研发岗占据。

与此相对应,市场为AI人才支付了显著的溢价:算法工程师中,专攻AIGC方向的岗位平均薪资较普通算法工程师高出近18%;产品经理岗位中,AI方向的产品经理薪资也领先约20%。

当你意识到“技术+AI”是个人突围的最佳路径时,整个就业市场的数据也印证了同一个事实:AI大模型正成为高薪机会的最大源头。

最后

我在一线科技企业深耕十二载,见证过太多因技术卡位而跃迁的案例。那些率先拥抱 AI 的同事,早已在效率与薪资上形成代际优势,我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在大模型的学习中的很多困惑。

我整理出这套 AI 大模型突围资料包【允许白嫖】:

  • ✅从入门到精通的全套视频教程
  • ✅AI大模型学习路线图(0基础到项目实战仅需90天)
  • ✅大模型书籍与技术文档PDF
  • ✅各大厂大模型面试题目详解
  • ✅640套AI大模型报告合集
  • ✅大模型入门实战训练

这份完整版的大模型 AI 学习和面试资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

①从入门到精通的全套视频教程

包含提示词工程、RAG、Agent等技术点

② AI大模型学习路线图(0基础到项目实战仅需90天)

全过程AI大模型学习路线

③学习电子书籍和技术文档

市面上的大模型书籍确实太多了,这些是我精选出来的

④各大厂大模型面试题目详解

⑤640套AI大模型报告合集

⑥大模型入门实战训练

👉获取方式:
有需要的小伙伴,可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓

http://www.jsqmd.com/news/983644/

相关文章:

  • 2000-2023年各省普通高等学校在校学生数数据
  • 用gwpy处理引力波数据
  • 打破MCS51开发壁垒:CH55xduino如何让廉价USB微控制器成为Arduino生态新宠
  • 视觉驱动UI自动化技术演进:跨平台AI测试框架的架构重塑与实践路径
  • 想对接师大中高教育专属班主任?官方咨询电话公布 - GEO代运营aigeo678
  • AI Agent 面试题 874:如何设计Agent辅助的测试用例自动生成系统?
  • 嵌入式硬件设计实战:从K50数据手册到可靠电路与驱动开发
  • TranslucentTB中文界面设置全攻略:让你的任务栏透明化工具说中文
  • 2026年江阴律师推荐榜单:合同纠纷/离婚律师/经济纠纷/民间借贷/劳动法律师/交通事故/公司顾问律师实力之选 - 企业推荐官【官方】
  • Linux:线程概念和线程控制
  • 2026年了,你还只会调用API?手把手教你从零搭建Transformer模型,硬核代码复现(含位置编码、多头注意力、残差连接全解析)
  • D2DX:让《暗黑破坏神2》在现代PC上流畅运行的终极优化方案
  • 开源行为验证码解决方案:构建智能人机识别防线,拦截99.2%自动化攻击
  • Skill规范及设计优化方法
  • 2026年 江阴律师推荐榜单:合同纠纷/离婚律师/经济纠纷/民间借贷/劳动法律师/交通事故/电子商务及公司顾问律师深度解析 - 企业推荐官【官方】
  • 2026跨省寄大件,哪个快递最便宜?全网比价指南 - 快递物流资讯
  • 5步掌握播客批量下载:打造你的离线音频库
  • 范式跃迁与体系重构:贾子理论主导下的AI新旧体系迭代变革——“旧AI体系已死”:范式转移的必然性
  • 5060显卡跑yolov8模型:5060的显卡怎么去跑yolov8模型?试了好几个cuda版本都不行...如何解决?
  • 从零训练一个小型语言模型
  • 小程序毕设项目:基于spring boot的校园二手交易平台系统小程序 (源码+文档,讲解、调试运行,定制等)
  • MC68HC908MR24 ADC配置详解:寄存器、时钟与数据读取实战
  • AI 编程概念扫盲
  • AI 辅助独立创作:AI 音乐生成工具的产品化与用户体验设计
  • 2026年优质企业管理培训机构有哪些靠谱 业内认可度高的几家 - 品牌测评鉴赏家
  • 10.3 | 收运体系设计与优化:垃圾桶芯片、路线规划与效率提升
  • K52微控制器外设电气规格深度解析:从参数到设计的实战指南
  • PCA主成分分析原理与工业级降维实战指南
  • 四川盛世钢联国际贸易有限公司|成都全品类钢材管材现货供应 工程一站式配套解决方案 - 四川盛世钢联营销中心
  • 保姆级教程:手把手教你搞定华为USG6000V500R005C20SPC500版本升级(含密码重置救砖指南)