世界动作模型WAM:从视频预测到机器人动态控制
1. 世界动作模型的技术革命:从静态语义到动态物理理解
在机器人控制领域,我们正经历着一场从语义驱动到物理动态理解的范式转变。传统视觉-语言-动作模型(VLA)虽然能出色地处理"将可乐罐移到泰勒·斯威夫特海报旁"这类依赖语义理解的任务,但当面对"解开鞋带"这类需要精细物理操作的新技能时,表现往往不尽如人意。这种局限性源于VLA模型的本质——它们建立在静态图像-文本对的预训练基础上,缺乏对物理世界动态变化的深入理解。
世界动作模型(WAM)的创新之处在于将视频生成与动作预测深度融合。想象一下,当人类学习新技能时,我们不仅需要知道"做什么",更重要的是理解"怎么做"——动作的力度、方向、时序等细节。DreamZero正是模拟了这一认知过程,通过视频扩散模型预测未来数帧的画面变化,同时逆向推导出实现这种变化所需的机械动作。这种"看到未来再决定现在"的思维方式,使机器人获得了类似人类的预见性操作能力。
2. DreamZero的架构精髓:视频与动作的舞蹈
2.1 双模态联合去噪机制
DreamZero的核心是一个14B参数的扩散变换器(DiT),其创新之处在于同时处理视频和动作两种模态的噪声去除过程。在训练阶段,模型接收的输入是带噪声的视频潜在向量和带噪声的动作指令,通过共享的去噪时间步调谐,逐步还原出清晰的未来帧序列和对应的机械动作。这个过程就像是一位舞蹈教练同时观看模糊的舞蹈录像(视频模态)和失真的动作记录(动作模态),然后逐步还原出完整的舞蹈编排。
技术实现上,这种联合去噪通过特殊的注意力掩码策略实现。模型采用分块处理方式,每个视频-动作块可以关注前面已去噪的干净块,但不能关注同一块内其他时间步的信息。这种设计既保持了时序依赖性,又确保了局部去噪的独立性。公式(3)中的流匹配目标函数巧妙地平衡了两种模态的去噪速度,使它们在学习过程中保持同步。
2.2 自回归架构的闭环优势
与双向模型相比,DreamZero选择自回归架构有其深刻考量。在真实机器人控制场景中,环境反馈是连续不断的,自回归方式能自然地利用历史观察作为新预测的上下文。更关键的是,通过KV缓存机制,模型可以在执行当前动作块的同时,利用空闲计算资源准备下一个动作块,实现了计算与执行的流水线并行。
实际操作中,这种设计带来了三个显著优势:
- 保持原生帧率不变,避免因视频降采样导致动作失准
- 通过实时用真实观察替换预测帧,有效抑制误差累积
- 支持任意长度上下文,适合长时程任务规划
3. 从实验室到现实:实时控制的工程突破
3.1 异步执行架构
将14B参数的扩散模型用于实时控制面临巨大挑战。原始版本的DreamZero在单GPU上需要5.7秒处理一个动作块,远不能满足机器人控制毫秒级响应的需求。工程团队通过创新的异步执行架构解决了这一难题:将动作执行与模型推理解耦,使机器人可以连续执行最新可用的动作指令,而模型在后台持续生成新的控制命令。
这种设计转变了问题的本质——从"必须在动作完成前产生新指令"的硬实时约束,变为"在动作块有效期内完成计算"的软实时要求。对于48步、30Hz控制频率的双手臂机器人,这意味着将延迟容忍度从33ms放宽到约200ms,为复杂计算赢得了宝贵时间。
3.2 三级优化策略
为实现这一目标,团队实施了系统级、实现级和模型级的三重优化:
系统级优化:
- CFG并行:将条件与非条件前向传播分配到不同GPU
- DiT缓存:当连续速度预测方向一致时复用缓存结果
- 量化部署:在Blackwell架构上采用NVFP4精度
实现级优化:
- Torch编译与CUDA图:减少CPU开销,融合算子
- 内核优化:使用cuDNN加速注意力计算
- 调度器改进:将调度操作迁移到GPU
模型级优化: DreamZero-Flash通过解耦视频和动作的噪声计划,使模型能在视频仍带噪声时预测干净动作。这种训练-推理一致性改进,配合Savitzky-Golay滤波器的动作平滑处理,最终实现了从5.7秒到150毫秒的延迟突破。
4. 数据效率的革命:从重复演示到真实世界数据
4.1 异构数据的高效利用
传统机器人学习需要大量重复演示,而DreamZero展示了从真实世界异构数据中学习的能力。研究团队收集的500小时AgiBot G1数据具有以下特点:
- 单次任务平均包含42个子任务
- 覆盖22种真实环境(家庭、餐厅、超市等)
- 技能分布反映实际需求:导航占37%,躯干调整占28%
这种数据构成与实验室环境下的重复演示形成鲜明对比。WAM通过视频预测目标,从每个连续帧对中学习物理动态,而不需要明确的动作标注。这就像人类通过观察他人行为学习技能,而非机械模仿固定套路。
4.2 跨具身迁移的突破
DreamZero在跨机器人形态迁移上取得两项重要进展:
- 视频示范迁移:使用其他机器人(YAM)或人类的第一视角视频(仅10-20分钟),使目标机器人(AgiBot G1)在未见任务上获得42%的性能提升
- 少量数据适应:在AgiBot G1上预训练的模型,仅需30分钟新机器人(YAM)的操控数据即可适应,同时保持零样本泛化能力
这种能力源于视频扩散模型对物理动态的本质理解。当模型在预训练阶段吸收了丰富的人类行为视频后,便建立了"动作-视觉后果"的通用映射关系,不同机械结构只是这种关系的不同实例化。
5. 实战表现与未来方向
5.1 基准测试结果
在RoboArena真实机器人测试平台上,DreamZero展现出显著优势:
- 对新环境和新任务的泛化能力达到现有VLA的2.1倍
- 即使经过任务特定微调,环境泛化能力仍保持10%的优势
- 在模拟器测试中,未见过的100项任务上表现出非平凡性能
特别值得注意的是对新颖动词的泛化能力。当指令中包含训练数据中未出现的具体动作(如"折叠"、"擦拭")时,DreamZero能通过视频预测理解动作本质,而传统VLA则完全失败。
5.2 模型规模的影响
从5B到14B参数的扩展实验显示:
- 视频预测质量与策略性能强相关(Pearson r=0.89)
- 更大模型带来更精确的物理模拟
- 模型容量对跨具身迁移尤为关键
这验证了"更好理解世界=更好控制世界"的核心假设,为未来扩展指明了方向。
6. 开发者实践指南
对于希望尝试DreamZero的研究者和工程师,以下是从原始论文中提炼的关键实践要点:
数据准备:
- 多视角视频建议拼接为单帧输入
- 动作表示推荐使用相对关节位置
- 过滤静止片段提高数据质量
训练技巧:
- 保持文本编码器和VAE冻结
- 采用分块训练策略适应可变长度视频
- 流匹配目标配合教师强制效果最佳
部署优化:
- 异步执行架构是实时控制的关键
- 动作块大小需匹配硬件处理能力
- Flash版本适合延迟敏感场景
开源代码中提供了完整的训练和推理管道,包括AgiBot G1和Franka两种机器人的配置示例。特别值得注意的是对模拟器PolaRiS和Genie Sim 3.0的适配支持,这为算法验证提供了便利环境。
世界动作模型代表着机器人学习的新范式,它将物理理解置于核心位置,而非仅仅依赖语义关联。这种转变带来的泛化能力飞跃,正在模糊专业机器人与通用助手之间的界限。随着视频生成质量的持续提升和计算效率的进一步优化,我们可以预见一个机器人能像人类一样,通过观察和少量实践就能掌握新技能的未来。
