从“预测下一个词”到“预测下一个物理状态”:一文读懂世界模型的技术原理、产业布局与实战价值
从“预测下一个词”到“预测下一个物理状态”:一文读懂世界模型的技术原理、产业布局与实战价值
2026年6月12日,北京中关村。智源研究院院长王仲远在第八届北京智源大会上宣布了一个消息:全球首个通用世界基座模型“悟界·Physis-v0.1”正式发布。
一句话概括这个新闻的意义:人工智能正在告别“只会接话茬”的时代,开始学习“理解世界为什么这样运转”。
这既是一次范式革命——从“预测下一个词元”转向“预测下一个物理状态”,也是一场全球竞赛——谷歌、Meta、英伟达、华为、字节跳动等巨头全部入局。
但你可能更想问三个问题:
- 世界模型到底是什么?跟我之前用的ChatGPT、Sora有什么区别?
- 它凭什么被称为“AI的下一个巨大飞跃”?
- 这跟我有什么关系?有什么我能直接拿去用的知识点?
这篇文章会用最简单的方式,把这三个问题讲清楚。
一、一张表看懂:大语言模型 vs 世界模型的本质区别
先别急着往下看,先记住这句话:
大语言模型是“读过所有物理课本但没做过实验的学生”;世界模型是“亲手做过无数次实验的物理学家”。
两者的区别,可以用这张表概括:
| 维度 | 大语言模型(如ChatGPT) | 世界模型 |
|---|---|---|
| 核心任务 | 预测下一个词(Token) | 预测下一个物理状态(State) |
| 理解对象 | 文本的统计规律 | 真实世界的物理规律 |
| 输入形式 | 文本、图片 | 视频、深度图、3D点云、力触反馈等多模态信息 |
| 能“想象”什么 | 下一句对话 | 下一秒世界会变成什么样 |
| 典型能力 | 写文章、编程、聊天 | 让机器人在动手前先“预演”后果 |
举个例子:你问AI“把一个玻璃杯推下桌子会怎样”。
- 大语言模型:因为它见过无数篇文本里写着“杯子掉下来会碎”,所以它告诉你“会碎”。但它不懂重力、不懂加速度、不懂碰撞。
- 世界模型:它会“想象”杯子的运动轨迹、撞击地面的速度、玻璃的受力——然后告诉你“会碎”。它是理解了物理规律,而不是背下了答案。
这正是世界模型被看作“通往通用人工智能必经之路”的原因。
二、技术拆解:世界模型到底是怎么“思考”的?
要真正理解世界模型,你需要知道它的大脑是怎么构成的。
2.1 物理状态编码:告别“像素级猜谜”
传统视频生成模型(比如Sora)的工作方式是:输入一张图,猜下一帧的每一个像素是什么颜色。这本质是“像素级猜谜”。
而悟界·Physis的做法完全不同:它把视频、深度图、3D点云、甚至机器人触觉反馈,全部压缩成统一格式的“物理状态Token”——你可以理解为,它把世界的“物理状态”当成了最基本的语言单位。
打个比方:如果说大语言模型是在学单词的排列组合,那世界模型就是在学牛顿定律本身。
2.2 “预演-验证-行动”闭环:让机器人不再是“莽夫”
这次智源大会上还发布了另一个世界模型——星源智的ω-EVA。它首创了一个决策闭环:预演 → 验证 → 行动。
什么意思?
普通机器人的逻辑是:“看见指令 → 立即执行。”但ω-EVA的逻辑是:在执行前,先在“脑海”里模拟一次——推演这个动作会引发什么连锁反应,确认没问题了,再真正动手。
在大会现场的华容道互动中,观众可以随机打乱棋盘,机器人会先“思考”每一步对后续路径的影响,再动手还原。这就是理解约束关系和预判后果的能力。
干货知识点:世界模型让AI从“看见即行动”(reactive)升级为“先思考再行动”(deliberative)。这不仅是技术差异,更是安全性的质变——尤其是在自动驾驶和工业机器人场景中。
三、实战场景:世界模型已经在三个领域“干活”了
理论说够了,来点实际的。世界模型已经在三个核心场景中落地。
场景一:具身机器人——让机器人“想到即做到”
就在智源大会后几天,上海大晓机器人公司宣布完成数亿美元融资。其核心产品开悟(Kairos)世界模型已经做到了:一个40亿参数的模型,不需要连接云端,就能让机器人自主完成开冰箱、拿麦片、倒碗里这一整套动作。
更夸张的是现场展示:一只机器狗走进便利店,对轮式机器人说“我要两瓶可乐”,后者识别货架、抓取、放入狗背上的篮子——全程没有人为遥控。
你能用上的知识点:如果你在关注机器人赛道,世界模型正在解决一个关键瓶颈——从“云端依赖”转向“端侧直驱”。这意味着机器人的反应速度从“秒级”压缩到“毫秒级”,商业化落地的可能性正在快速提高。
场景二:自动驾驶——从“模仿人类”到“理解物理”
华为乾崑智驾ADS 4是另一个典型案例。它内部构建了“云端世界引擎 + 车端世界行为模型”的双层架构。
关键差异在于:传统端到端智驾的本质是模仿人类司机的行为数据——如果90%的司机在某个路口选择刹车,系统就学会刹车,哪怕有10%的司机能流畅通过。
而世界模型的做法是:理解这个路口为什么可以流畅通过——包括车速、视角、路面摩擦、障碍物轨迹——然后自己推演出一条更优的路线。
你能用上的知识点:如果你在关注智能驾驶投资或选车,可以关注一个指标——该品牌的智驾系统是否基于“世界模型”架构,而不只是“端到端模仿学习”。前者代表“会思考”,后者代表“会背题”。
场景三:物理仿真与科研——在虚拟世界里做“超前实验”
世界模型还有一个隐藏能力:作为“数据合成引擎”。
什么意思?训练机器人需要海量的“试错数据”,但现实世界中不可能让机器人天天撞墙。世界模型可以在虚拟环境里模拟几万次失败,然后把“成功路径”提炼出来教给真实机器人。
清华大学的综述论文也指出,世界模型可以作为云端数据合成器,生成高质量的仿真数据来训练下游模型。
你能用上的知识点:如果你在做科研或工业仿真,可以关注世界模型在替代传统物理引擎方面的潜力——当数据量足够大时,数据驱动的世界模型在模拟效率上可能超越基于公式的传统仿真器。
四、赛道格局:谁在做、怎么做、谁领先?
目前行业里大致可以分为四条技术路线:
| 技术路线 | 代表玩家 | 核心理念 |
|---|---|---|
| 视频生成派 | 谷歌Genie 3、阿里HappyOyster、字节Seedance 2.0 | 通过生成逼真视频来模拟世界演进 |
| 空间智能派 | 腾讯混元3D、World Labs(李飞飞) | 输出可编辑的3D资产,侧重工程落地 |
| 潜在表征派 | Meta V-JEPA 2 | 在抽象特征空间里做推理,跳过像素 |
| 交互闭环派 | 智源Physis、星源智ω-EVA、大晓开悟 | 让世界模型参与真实决策闭环,而不仅是离线预测 |
智源研究院院长王仲远在大会上明确说了一句话:“在世界模型这个赛道上,中国不再只是跟随者。我们已经有了独立原创的技术路径,开始去定义问题、定义技术路线本身。”
这不是一句口号。悟界·Physis由22岁的北京大学本科生陈博远担任技术负责人,智源计划在训练完成后将模型开源开放。
