当前位置：首页 > news >正文

世界模型：一文讲清楚AI下一个十年的核心战场

news 2026/6/9 22:01:17

先说一件最近AI圈里有点反常的事。

LeCun从Meta辞职，在巴黎创立AMI Labs，种子轮融了10.3亿美元，估值35亿，成为欧洲历史上最大的种子轮。投资方名单里有NVIDIA、三星、贝佐斯本人。李飞飞的World Labs拿到数亿美金。DeepMind的Hassabis也在同一个方向持续押注。

这三个人，是过去二十年AI领域最重要的几张名片。

他们不约而同转向的这条赛道，叫世界模型。

反常的地方在于：这个方向，和当下硅谷主流的LLM路线，在底层逻辑上是对立的。LeCun自己说得很直白——别人融十亿是为了买卡训LLM，他们融十亿，是为了证明大家训LLM训错了方向。

这篇文章想做一件事：把世界模型从底层讲清楚。它是什么、为什么现在火、五条技术路线各有什么算盘，以及这场押注背后真正的分歧在哪里。

一、一个字的距离，一个世界的差距

要理解世界模型，先得搞清楚它和LLM到底在解决什么不同的问题。

LLM回答的是：世界是什么样的。

世界模型回答的是：我这样做之后，世界会变成什么样。

听起来只差了一句话，但这是旁观者和参与者的本质差异。

你问ChatGPT"玻璃杯从桌上掉下去会怎样"，它能回答你，因为它见过足够多描述这件事的文字。这是语言层面的知识检索。

但如果你是一台机器人，要伸手去接这个杯子，你需要的不是描述，而是实时预测：这一刻我的手在哪里，杯子的下落速度是多少，如果我这样移动手臂，0.3秒后接触点会在哪里，力度应该多大。

语言模型给不了这个。不是因为它不够聪明，而是因为它根本没有在解这道题。

这就是两种智能的分水岭：一种擅长描述，一种负责预测。前者是旁观者，后者是参与者。机器人、自动驾驶、具身智能需要的，是后者。

二、大脑里一直有一台预测机器

世界模型这个思路，比LLM早了几十年。

1943年，英国心理学家Kenneth Craik在一篇论文里写道：大脑里维护着一个"现实的小尺度模型"，行动前先在脑子里跑一遍。这是这个想法最早的文字记录。

神经科学在1990年代给了它更扎实的支撑，叫预测编码。

视觉皮层不会把眼睛接收到的每个像素老实传上去——那太耗能了。大脑高层持续向低层"下发预测"，低层只需要把预测与真实感官之间的误差往上汇报。

你走进熟悉的办公室，大脑几乎不消耗额外资源，因为一切都在预期之内。但如果同事的椅子换了个位置，那个"错位"信号会立刻引起你的注意。大脑处理的不是世界本身，而是世界和预期之间的差值。

控制工程领域在1960年代独立发现了同一条原理，用更工程化的语言表述，叫内模原理：要实现对某个系统的完美控制，控制器内部必须包含该系统的一个模型。

用更直白的话说：想控制某件事，先得在脑子里装着它的运行规律。

这条原理贯穿了机器人、航天器、自动驾驶几十年的工程实践。卡尔曼滤波器在1960年代帮助阿波罗导航系统实时预测飞船位置——它不等传感器读数，而是先用内部模型"猜"飞船下一秒在哪，再用真实测量值校正误差。这套思路后来出现在语音识别、天气预报、工业机器人里，只是换了一套数学外衣。

从Craik到预测编码到内模原理，三条线指向同一个结论：理解世界的最高效方式，是在脑子里维护一个可以持续预测的模型，而不是被动接收信息。

AI世界模型，就是把这个想法推向极致的工程尝试。

三、它到底能做什么

世界模型有三个核心价值。第一个最直觉，后两个才是工业界真正在意的，也是最容易被忽视的。

︱第一，在脑子里练一万遍。

传统强化学习需要智能体和真实环境反复交互，可能要跑几百万次才能学会一个简单任务。每一次交互都是真实时间和真实资源，在机器人领域还意味着真实损耗。

有了世界模型，智能体可以在内部虚拟环境里先跑几万遍。出了问题，重置，再来。没有物理代价。DeepMind的Dreamer V3在只允许10万步真实交互的基准测试里就超过了人类水平，背后靠的正是这个机制。

︱第二，行动之前先算好。

有了世界模型，智能体可以在真正动手之前，先在脑子里把几条路都走一遍，选预期结果最好的那条。

DeepMind的MuZero就是这样，在没有被告知任何游戏规则的情况下，自己摸索出了一套内部动态模型，然后凭这套模型同时掌握了国际象棋、围棋和一堆Atari游戏的策略。规则不重要，重要的是它自己学会了预测"下一步会发生什么"。

︱第三，这是工业界最在意的——安全。

机器人、自动驾驶、工业控制，这些场景里试错的代价可能是灾难性的。你没办法为了训练模型，真的让车在路上撞几千次。

世界模型的解法是：生成合成数据。给定真实路测片段，自动生成"同一路口、不同天气、不同行人行为、不同光线"的变体，把那些极端危险的场景反复演练。NVIDIA的Cosmos系列已经在这个方向上做出了工业级产品——它可以生成罕见或危险场景，那些在现实中难以反复采集甚至根本不能让它发生的情况。这种能力，是纯真实数据采集永远无法覆盖的。

四、80年，四个时代

︱第一个时代，1950年到2017年：理论散落各处。

七十年里，研究者在控制论、语音识别、机器人学的不同角落，各自构建"预测未来状态"的工具，从未被统一命名。RNN、卡尔曼滤波器、隐马尔可夫模型……它们解决的是同一类问题，但没有人把它们放在同一张图里看。

︱第二个时代，2018年：“在梦里学开车”。

David Ha和Jürgen Schmidhuber发表《World Models》，第一次把散落的工具组合成可以端到端训练的框架。核心思路是三个模块：视觉编码器把画面压缩成低维向量，记忆模块预测下一帧的分布，控制器把当前状态映射成动作。

最令人着迷的是他们的实验：把控制器放进模型幻想出的虚拟环境里训练，然后把策略迁移到真实游戏。在梦里学会开车，醒来就能上路——这个比喻让世界模型第一次走进大众视野。

但实验也暴露了一个核心问题：智能体学会了利用世界模型的错误来制造虚假高分。在梦境里作弊，而不是真正学到技能。这在强化学习里有个专门术语叫reward hacking——模型没学会开车，先学会了应付考核。这个问题，后来成为整个领域持续攻克的挑战。

︱第三个时代，2019到2022年：潜在空间革命。

Dreamer系列的出现，彻底改变了世界模型的架构逻辑。

核心改变只有一个：不再在像素空间里做任何事。

一帧64×64的游戏画面有12288个像素值，里面大量是光照、纹理、背景噪点这些无关细节。与其预测这12288个数字，不如把它压缩成一个只有几十维的向量，只保留"这里有个平台、那里有个敌人"这类结构性信息。所有预测、规划、策略学习，全部在这个压缩后的低维空间里完成。

速度快了，效果反而更好。Dreamer V3用同一套参数横跨Atari、Minecraft、机器人控制等超过150个任务，每个领域都拿到了有竞争力的结果。这在此之前从未实现过。

︱第四个时代，2023年至今：视频即世界。

两条路线开始汇聚：能不能用视频本身来学习物理规律？

LeCun团队走了一条另类的路，抛弃像素重建，只在语义空间里预测。"我不需要画出你的脸，我只需要知道你是谁。"这就是JEPA的基本逻辑——不生成，只理解。

与此同时，NVIDIA的Cosmos 3把语言、图像、视频、音频和动作统一到单一架构中，试图让模型不只能生成逼真视频，还能真正理解其中的物理规律并以此指导机器人行动。

这两条路线指向同一个问题，但给出了截然不同的答案：一个说生成是幻觉，理解才是本质；另一个说生成本身就是理解的一种形式。这场争论，现在还没有结果。

五、为什么偏偏是现在

Dreamer V1是2019年的，视频生成2023年就起步了。为什么偏偏2024、2025才成了每个AI会议的主角？

不是某个单点突破，而是三条线刚好同时成熟，撞在了一起。

︱第一条：视频生成逼出了更深的追问。

当视频生成质量提升到一定程度，一个尴尬的问题浮出水面：生成质量高，不等于物理理解深。Sora可以生成极其逼真的水流画面，但生成的水有时会穿墙而过。"像素上的成功"和"物理上的理解"是两件事，这个矛盾把视频生成领域和机器人领域拉到了同一张讨论桌前。

︱第二条：机器人遭遇了数据天花板。

通用机器人训练需要大量遥操作数据，采集成本极高，而且长尾覆盖永远不够。2025年出现了一种清晰的绕路方案：先在互联网规模的视频上预训练，学到丰富的物理表征，再加入少量交互数据，把表征转化为可控的世界模型。Meta的V-JEPA 2就是这个思路的代表——用超过100万小时的互联网视频预训练，再用不到62小时的机器人数据后训练，最终实现了在全新环境下的零样本抓取能力。62小时换零样本泛化，这个数字值得停下来想一想。

︱第三条：自动驾驶跑通了商业逻辑。

用世界模型生成罕见危险场景的合成数据，比单纯累积路测里程效率更高——这条路的商业逻辑，已经有公司在工业级别验证了。国内初创公司极佳视界发布的DriveDreamer系列，已经签约多家头部主机厂。当资本能看到钱从哪里来，蜂拥而至就只是时间问题。

上一次世界模型热是2018到2020年，学术界主导，在游戏里证明可行性，落地遥遥无期。这一次，工业界和学术界同时入场，因为它触碰到了真实的成本瓶颈和安全需求。这是性质不同的热度。

六、五条路，各有各的算盘

2023年之后，世界模型分化出五条主要路线。每条路线面对的核心权衡不一样，选哪条，取决于你的任务对哪个瓶颈更敏感。

︱RSSM/Dreamer：在压缩后的潜在空间里做规划，追求样本效率，擅长用少量真实交互学到足够好的策略。代价是对长程复杂任务的建模能力有限。

︱Transformer路线（STORM）：把视频帧当"句子"处理，每帧压缩成一个离散token，借GPT处理文字的方式来预测下一帧。单块RTX 3090训练4小时就能在Atari 100k上超过人类水平。代价是离散化会损失细粒度的连续动态信息。

︱扩散模型路线（Diamond）：不做离散压缩，直接用扩散模型逐步去噪出下一帧。视觉质量是五种架构里最高的，在Atari 100k上以146%平均人类标准化分数超越所有竞争方法。代价是每帧生成需要多次神经网络前向传播，计算开销比STORM高出将近一个数量级，而且生成过程不可微，难以直接对接策略优化。

︱JEPA路线（V-JEPA 2）：最另类的一个。根本不生成图像，只在语义空间里预测状态变迁。用超过100万小时互联网视频预训练，用不到62小时机器人视频后训练，实现零样本机器人控制。优势是对物理世界的结构性理解，直接建模"这个物体在哪里、手是否握住了它"，完全不关心光照和纹理。代价是可解释性差，中间表征难以直观检验。

︱具身世界模型（DreamDojo、Cosmos）：面对最现实的问题——机器人操作数据贵到离谱。NVIDIA Cosmos 3在包括近10亿张图像、4亿段视频、人类与机器人动作数据在内的20万亿token多模态数据上完成训练。DreamDojo则专注从人类日常操作视频里提炼物理交互规律，在640×480分辨率下达到10.81 FPS的推理速度，满足实时控制要求，并展现出跨环境零样本泛化能力。

没有一条路通吃所有场景。这五条路线在同时演进，也在互相借鉴。

七、三种声音，三种押注

五条路线，每条都有人在押注。但所有论文都没有正面回答一个更根本的问题：世界模型，真的是正确的方向吗？

围绕这个问题，AI领域有三种截然不同的声音。

︱第一种：这是唯一正确的路。

这是LeCun的立场，也是他用职业生涯最后一段黄金时间下注的判断。

2025年11月，他离开了担任了十二年首席AI科学家的Meta，原因是在架构方向上和公司产生了根本分歧。Meta在大规模押注LLM，LeCun认为这是走错了路。AMI Labs的种子轮，背后站着NVIDIA、三星、贝佐斯。

谢赛宁的比喻流传很广：“语言是一剂鸦片。它有用，但它是捷径。如果你一直靠拐杖走路，你就没办法训练大腿的肌肉。”

LeCun的论证更系统：LLM处理的是人类发明的符号系统，是对世界的二次抽象。文字是人类用来描述世界的工具，而不是世界本身。真正的智能需要直接从连续的感官信号中建模物理世界，学会因果结构，而不是学会统计关联。

2026年5月底，他的研究组发布了两篇理论预印本，从数学上证明了JEPA架构在何种条件下能够恢复真实世界的结构，同时配套基准测试指出当前模型在轻微视觉扰动下会出现崩溃。这是AMI Labs成立以来最重要的研究产出——他们不只是在讲故事，而是开始给"世界模型更可靠"这个论断找理论地基。

他们的赌注是：五年后，今天LLM主导的格局会被证明是一段弯路。

︱第二种：LLM加多模态，融合就够了。

这是DeepMind的路线。Hassabis的判断是，Gemini的演进方向就是"成为世界模型"，但实现方式是在大型多模态LLM上叠加具身推理能力，而不是推倒重建。

逻辑是：LLM已经积累了人类几千年书写知识的压缩表示，在这个基础上叠加视觉、空间感知和强化学习，比从头建一套新架构更务实。LLM在常识推理、语言指令理解、跨任务泛化上已经足够强，而这些恰恰是纯RSSM/JEPA架构最弱的地方。与其放弃已有的优势，不如在它上面叠加缺失的能力。

这条路线的批评者有具体的反驳：LLM学到的是统计关联，不是因果结构。它能告诉你"玻璃杯掉下来会碎"，但不知道为什么碎、碎成几片、碎片弹到哪里。这种"知道结果但不懂机制"的理解方式，在语言任务里够用，在机器人操作里会踩中最难的那块——你需要的不是常识，是精确的物理预测。

一个已经反复被验证的经验是：堆更多数据、堆更多参数，往往能覆盖掉架构设计上的不足。DeepMind在赌的，是这个经验在具身智能领域同样成立。

︱第三种：方向也许对，但时机还没到。

这是目前最少被公开讨论、在业界却私下流传最广的一种判断。

核心是一个数据密度问题。

语言的每个token携带极高的语义密度，一句话就能传达完整的命题。视觉信号截然不同：一帧1080p视频包含约600万像素，但其中承载的命题性信息压缩成文字不过几十个词。同等数据量，视觉信号能传达的语义量远小于文字。这意味着，要训练出能力对标当前LLM的世界模型，所需的数据量和算力，可能比LLM高出好几个数量级——而产出的能力，可能还不如早期的BERT。

更深的问题是：我们甚至还没想清楚，世界模型的"涌现"需要什么样的目标函数。LLM的成功，在于next-token prediction这个目标函数本身就足够强大。世界模型需要一个类似的、同样简洁有力的训练目标，而现在还没有人找到它。

历史教训不是没有。NLP领域几十年的语法树、词性标注研究，LLM出来之后几乎整个作废。脉冲神经网络研究了将近半个世纪，Transformer出来之后在几乎所有基准上被直接越过，连追赶的机会都没有。这些失败者不是方向错了，是被规模定律碾压了——他们选了正确的问题，但可能选了错误的时机。

这种观点并不是在否定世界模型，而是在追问：在视觉数据密度问题、训练目标函数问题都还没有根本突破之前，这一波大规模押注，真的到时候了吗？

说真的，这两年看着身边一个个搞Java、C++、前端、数据、架构的开始卷大模型，挺唏嘘的。大家最开始都是写接口、搞Spring Boot、连数据库、配Redis，稳稳当当过日子。

结果GPT、DeepSeek火了之后，整条线上的人都开始有点慌了，大家都在想：“我是不是要学大模型，不然这饭碗还能保多久？”

我先给出最直接的答案：一定要把现有的技术和大模型结合起来，而不是抛弃你们现有技术！掌握AI能力的Java工程师比纯Java岗要吃香的多。

即使现在裁员、降薪、团队解散的比比皆是……但后续的趋势一定是AI应用落地！大模型方向才是实现职业升级、提升薪资待遇的绝佳机遇！

这绝非空谈。数据说话

2025年的最后一个月，脉脉高聘发布了《2025年度人才迁徙报告》，披露了2025年前10个月的招聘市场现状。

AI领域的人才需求呈现出极为迫切的“井喷”态势

2025年前10个月，新发AI岗位量同比增长543%，9月单月同比增幅超11倍。同时，在薪资方面，AI领域也显著领先。其中，月薪排名前20的高薪岗位平均月薪均超过6万元，而这些席位大部分被AI研发岗占据。

与此相对应，市场为AI人才支付了显著的溢价：算法工程师中，专攻AIGC方向的岗位平均薪资较普通算法工程师高出近18%；产品经理岗位中，AI方向的产品经理薪资也领先约20%。