当前位置: 首页 > news >正文

世界模型EP01:DreamZeroDreamDojo 世界模型与机器人智能的新范式

发布时间:2026年3月18日 06:30


世界模型这个概念,从2024年偶尔听到,到如今已经非常热门。延续之前的三个系列科普,Robot Data EP10 Robot Data第一季访谈总结,和Human Data 总结篇:Human Data—The “Key” to Robot Data,以及Robot Foundation model系列,2026年上半年,石麻笔记会对世界模型做一个系列科普。

世界模型第一篇,我们有幸邀请到DreamZero和DreamDojo两个工作的参与者,高深远博士。他目前是香港科技大学的PhD,主要的研究方向是interactive world model以及相关课题。他同时也是英伟达研究院GEAR的成员,与Yuke Zhu和Jim Fan合作。


📋 本文目录

  1. World model路线分类
  2. 什么叫world action model(WAM)?
  3. 自动驾驶和机器人的world model的区别
  4. Dreamzero的方法介绍
  5. DreamDojo方法介绍
  6. DreamZero和DreamDojo如何联动
  7. 怎么看3D数据
  8. 数据怎么进一步迭代
  9. world model怎么和RL结合

1. World model路线分类

对"world model"这个概念来说,这个名词最早应该是从做RL的人那里来的。因为在强化学习里,需要有一个model,对环境进行建模,而这个环境就可以理解为world。简单来说,world model本质上是一个state transition function:输入是action和state,输出是下一个state。它和policy是一种互补关系。可以理解为,你把action交给world model,world model告诉你下一个state;这个state再交给policy,policy再输出新的action,如此反复,与world model持续交互。

我开始做world model,是因为当时在上海AI Lab做intern。那时候特斯拉已经做出了一些world model的工作。我一开始做的是自动驾驶数据合成,当时正好image diffusion、video diffusion刚出来一些工作。我在用diffusion做自动驾驶数据合成时,就在想,既然可以用diffusion做数据生成,为什么不直接做一个world model?于是我们开始做world model。

从流派上讲,world model在最抽象的层面就是一个action-conditioned的状态转移方程。但action可以有多种模态表示,state的表示形式也可以有很多种。

Video Generation Model-Pixel Space

目前最主流的是基于video generation的world model,因为这种方式最scalable,完全data-driven,也得益于video diffusion的发展。

JEPA

JEPA这一类的方法,是Lecun一直在推的。他的核心观点是:state不应该表示在pixel space,而应该表示在latent space。原因在于,他认为预测pixel对decision making并不合理。他喜欢举例说,人进入一个新房间时,不可能精确预测每一个像素;在街上行走做决策时,也不会去预测每个人的脸长什么样。这些低层次的细节既几乎不可能预测,也与决策无关。让模型去预测这些内容,只是在消耗容量,去拟合本质上无法预测、也无助于决策的东西。因此,过于low-level的信息不应该成为world model的预测目标。

他的想法是构造一个更具语义性的latent space,在这个空间中进行预测,只保留对decision making有用的信息。这个latent space可以通过unsupervised方法,或者借助其他task的监督来构造,使其对决策更有帮助,同时避免预测低层细节。这是Lecun他们那一派的思路。

JEPA里提到的EMB模型,可以参考 专访Yilun Du:基于EBM和视频生成的具身智能研究路线

Dynamics Model

另外一类是dynamics model。其实world model和forward dynamics model在定义上基本一致。北美一些学者在推的dynamics model,核心区别在于state的表示方式。他们会把state表示为高度抽象的结构,比如key points,或者graph结构,用来表示物体状态及其与手的关系。这种表示既不是latent space,也不是video的pixel space,而是非常抽象的结构化表示,可能包含key points或物理属性。

这种方法的好处在于,早期或传统robotics很喜欢这种高度抽象的表示。因为它便于few-shot或zero-shot迁移,可以快速把人的demonstration迁移到新任务上。但在我看来,这类方法通常需要很多假设,例如对物体材料属性的假设,以及较强的归纳偏置。它本质上不是一个完全data-driven的方法,虽然在小样本场景下可能很有用,但难以充分受益于大规模数据,因为其中加入了大量人工prior。

Yunzhu在Dynamics Model方向上有很多探索,可以参考之前的访谈 对话李昀烛:通用操作新解法——基于学习的动力学模型

3D World Model

还有一类是李飞飞World Lab为代表的3D路线。我认为这种方法有优点也有缺点。它的流程是把next state prediction拆成几个阶段:首先显式地用3D表示重建整个世界;重建完成后,如果改变动作或视角,再进行生成和render,从而得到下一个observation。也就是说,它把next state prediction分解为"重建"和"render"两个步骤。

优点是因为显式进行了3D重建,空间一致性可以做得非常强。但render这一步是单独处理的,因此整个流程不是纯end-to-end。简单来说,3D世界重建好之后,如果有行人行走、车辆运动、液体流动等动态过程,这些dynamics需要单独再去模拟。可以通过rule-based方法,也可以通过learning方法,但世界重建和dynamics模拟是decouple的,不是统一的端到端建模。整体而言,这种dynamics的模拟方式不算特别scalable。

基于物理引擎的World Model

还有一类world model,是英伟达等在推的基于物理引擎的world model。物理引擎本身就具备world model的功能:给它action,它就能模拟出下一个state。优点是physics可以非常精确,例如完全符合牛顿定律。但问题在于,它很难做到足够diverse。引入新的物体通常需要手工设计assets。不过这点也在改善,现在有很多3D generation方法可以自动生成大量assets和场景。

总体来看,这一类方法在pipeline上和李飞飞那种3D路线类似:先进行重建,再用某种方式模拟dynamics,最后render出结果,并不是一个纯end-to-end的方法。

Genesis也是这条路线,可以参考之前的访谈 Genesis 发布:全新机器人物理引擎——它会变革机器人仿真吗?


2. 什么叫world action model(WAM)?

这是一个非常好的问题。我们之所以称它为world action model,是为了强调模型同时预测action的能力。

像DreamZero以及一系列类似的工作,本质上也可以看作world model。传统意义上的world model可以理解为一个state transition function:输入是state和action,输出是下一个state。在这种框架下,作为条件输入的action可以有多种不同形式。

DreamZero其实是把world model和如何根据未来state的预测decode出action的inverse dynamics model组合到了一个模型中。如果把它看作一种world model,那么其中的ac

http://www.jsqmd.com/news/750403/

相关文章:

  • 将 Claude Code 编程助手无缝对接至 Taotoken 平台使用
  • R3nzSkin国服换肤工具:如何在英雄联盟中零风险体验全皮肤
  • 游戏性能被DLSS版本卡住?这个工具让你自由掌控显卡潜力
  • CTF新手必看:手把手教你用Python脚本批量处理36个二维码碎片(BUUCTF安洵杯真题复盘)
  • JoyCon-Driver深度解析:Switch手柄PC无线控制的技术实现方案
  • Anthropic颠覆OpenAI了吗?
  • 孤舟笔记 并发篇二十三 线程池是如何实现线程复用的?Worker循环取任务的秘密远比你想象的精巧
  • 2026支付宝立减金回收攻略:过期作废太可惜,这样操作轻松换额度 - 可可收
  • FOCUS方法:解决多主体图像生成中的属性绑定与空间关系问题
  • 语言如何刻写自感:从黄玉顺“生活存在论”到“痕迹政治学”的元重释
  • PyTorch模型保存的两种方式(.pth全量 vs state_dict),哪种更适合转ONNX?一次讲清楚
  • Obsidian Excel插件:构建企业级知识库结构化数据管理的完整方案
  • 从寄存器操作到库函数:我的ZYNQ OV5640+LCD显示工程优化与重构心得
  • 为 OpenClaw Agent 工作流配置 Taotoken 作为统一的模型提供商
  • 终极解决方案:如何用OBS多平台推流插件实现一次编码多平台直播
  • 内网部署音频AI项目,我踩遍了librosa、numba和llvmlite的版本坑(附完整依赖清单)
  • 惠阳中大型塑胶模胚加工及代表性厂家 - 昌晖模胚
  • 告别HX711!用STM32和CS1238搭建低成本高精度电子秤方案(附完整工程)
  • 告别SDK卡顿!ZYNQ-7020上两种HDMI图片显示方案的实战对比与选择
  • OneDrive同步总出bug?程序员教你用Git思维来管理和排查同步问题
  • 多模态AI策略内化技术:提升对话系统理解与执行能力
  • 如何快速打造智能机器狗:openDogV2开源四足机器人完整指南
  • Hive事务表从入门到放弃?手把手教你配置ACID表并避坑(基于ORC存储)
  • Translumo:打破语言障碍的实时屏幕翻译利器
  • VTR开源EDA工具链:从Verilog到布线的完整流程与优化实战
  • 2026 大连黄金回收避坑指南:选福正美,不扣点不熔金 - 福正美黄金回收
  • 学术论文一键转交互网页的技术实现与应用
  • 通过 Taotoken CLI 工具一键配置开发环境与常用工具
  • 批量自动化任务里,为什么节流和间隔控制不能省
  • Mediapipe姿态估计避坑指南:解决Windows/Mac环境配置、摄像头延迟和关键点抖动