当前位置：首页 > news >正文

世界模型EP01：DreamZeroDreamDojo 世界模型与机器人智能的新范式

news 2026/5/4 11:16:05

发布时间：2026年3月18日 06:30

世界模型这个概念，从2024年偶尔听到，到如今已经非常热门。延续之前的三个系列科普，Robot Data EP10 Robot Data第一季访谈总结，和Human Data 总结篇：Human Data—The “Key” to Robot Data，以及Robot Foundation model系列，2026年上半年，石麻笔记会对世界模型做一个系列科普。

世界模型第一篇，我们有幸邀请到DreamZero和DreamDojo两个工作的参与者，高深远博士。他目前是香港科技大学的PhD，主要的研究方向是interactive world model以及相关课题。他同时也是英伟达研究院GEAR的成员，与Yuke Zhu和Jim Fan合作。

📋 本文目录

World model路线分类
什么叫world action model（WAM）？
自动驾驶和机器人的world model的区别
Dreamzero的方法介绍
DreamDojo方法介绍
DreamZero和DreamDojo如何联动
怎么看3D数据
数据怎么进一步迭代
world model怎么和RL结合

1. World model路线分类

对"world model"这个概念来说，这个名词最早应该是从做RL的人那里来的。因为在强化学习里，需要有一个model，对环境进行建模，而这个环境就可以理解为world。简单来说，world model本质上是一个state transition function：输入是action和state，输出是下一个state。它和policy是一种互补关系。可以理解为，你把action交给world model，world model告诉你下一个state；这个state再交给policy，policy再输出新的action，如此反复，与world model持续交互。

我开始做world model，是因为当时在上海AI Lab做intern。那时候特斯拉已经做出了一些world model的工作。我一开始做的是自动驾驶数据合成，当时正好image diffusion、video diffusion刚出来一些工作。我在用diffusion做自动驾驶数据合成时，就在想，既然可以用diffusion做数据生成，为什么不直接做一个world model？于是我们开始做world model。

从流派上讲，world model在最抽象的层面就是一个action-conditioned的状态转移方程。但action可以有多种模态表示，state的表示形式也可以有很多种。

Video Generation Model-Pixel Space

目前最主流的是基于video generation的world model，因为这种方式最scalable，完全data-driven，也得益于video diffusion的发展。

JEPA

JEPA这一类的方法，是Lecun一直在推的。他的核心观点是：state不应该表示在pixel space，而应该表示在latent space。原因在于，他认为预测pixel对decision making并不合理。他喜欢举例说，人进入一个新房间时，不可能精确预测每一个像素；在街上行走做决策时，也不会去预测每个人的脸长什么样。这些低层次的细节既几乎不可能预测，也与决策无关。让模型去预测这些内容，只是在消耗容量，去拟合本质上无法预测、也无助于决策的东西。因此，过于low-level的信息不应该成为world model的预测目标。

他的想法是构造一个更具语义性的latent space，在这个空间中进行预测，只保留对decision making有用的信息。这个latent space可以通过unsupervised方法，或者借助其他task的监督来构造，使其对决策更有帮助，同时避免预测低层细节。这是Lecun他们那一派的思路。

JEPA里提到的EMB模型，可以参考专访Yilun Du：基于EBM和视频生成的具身智能研究路线

Dynamics Model

另外一类是dynamics model。其实world model和forward dynamics model在定义上基本一致。北美一些学者在推的dynamics model，核心区别在于state的表示方式。他们会把state表示为高度抽象的结构，比如key points，或者graph结构，用来表示物体状态及其与手的关系。这种表示既不是latent space，也不是video的pixel space，而是非常抽象的结构化表示，可能包含key points或物理属性。

这种方法的好处在于，早期或传统robotics很喜欢这种高度抽象的表示。因为它便于few-shot或zero-shot迁移，可以快速把人的demonstration迁移到新任务上。但在我看来，这类方法通常需要很多假设，例如对物体材料属性的假设，以及较强的归纳偏置。它本质上不是一个完全data-driven的方法，虽然在小样本场景下可能很有用，但难以充分受益于大规模数据，因为其中加入了大量人工prior。

Yunzhu在Dynamics Model方向上有很多探索，可以参考之前的访谈对话李昀烛：通用操作新解法——基于学习的动力学模型

3D World Model

还有一类是李飞飞World Lab为代表的3D路线。我认为这种方法有优点也有缺点。它的流程是把next state prediction拆成几个阶段：首先显式地用3D表示重建整个世界；重建完成后，如果改变动作或视角，再进行生成和render，从而得到下一个observation。也就是说，它把next state prediction分解为"重建"和"render"两个步骤。

优点是因为显式进行了3D重建，空间一致性可以做得非常强。但render这一步是单独处理的，因此整个流程不是纯end-to-end。简单来说，3D世界重建好之后，如果有行人行走、车辆运动、液体流动等动态过程，这些dynamics需要单独再去模拟。可以通过rule-based方法，也可以通过learning方法，但世界重建和dynamics模拟是decouple的，不是统一的端到端建模。整体而言，这种dynamics的模拟方式不算特别scalable。

基于物理引擎的World Model

还有一类world model，是英伟达等在推的基于物理引擎的world model。物理引擎本身就具备world model的功能：给它action，它就能模拟出下一个state。优点是physics可以非常精确，例如完全符合牛顿定律。但问题在于，它很难做到足够diverse。引入新的物体通常需要手工设计assets。不过这点也在改善，现在有很多3D generation方法可以自动生成大量assets和场景。

总体来看，这一类方法在pipeline上和李飞飞那种3D路线类似：先进行重建，再用某种方式模拟dynamics，最后render出结果，并不是一个纯end-to-end的方法。