当前位置：首页 > news >正文

世界动作模型WAM：从视频预测到机器人动态控制

news 2026/5/2 16:23:06

1. 世界动作模型的技术革命：从静态语义到动态物理理解

在机器人控制领域，我们正经历着一场从语义驱动到物理动态理解的范式转变。传统视觉-语言-动作模型（VLA）虽然能出色地处理"将可乐罐移到泰勒·斯威夫特海报旁"这类依赖语义理解的任务，但当面对"解开鞋带"这类需要精细物理操作的新技能时，表现往往不尽如人意。这种局限性源于VLA模型的本质——它们建立在静态图像-文本对的预训练基础上，缺乏对物理世界动态变化的深入理解。

世界动作模型（WAM）的创新之处在于将视频生成与动作预测深度融合。想象一下，当人类学习新技能时，我们不仅需要知道"做什么"，更重要的是理解"怎么做"——动作的力度、方向、时序等细节。DreamZero正是模拟了这一认知过程，通过视频扩散模型预测未来数帧的画面变化，同时逆向推导出实现这种变化所需的机械动作。这种"看到未来再决定现在"的思维方式，使机器人获得了类似人类的预见性操作能力。

2. DreamZero的架构精髓：视频与动作的舞蹈

2.1 双模态联合去噪机制

DreamZero的核心是一个14B参数的扩散变换器（DiT），其创新之处在于同时处理视频和动作两种模态的噪声去除过程。在训练阶段，模型接收的输入是带噪声的视频潜在向量和带噪声的动作指令，通过共享的去噪时间步调谐，逐步还原出清晰的未来帧序列和对应的机械动作。这个过程就像是一位舞蹈教练同时观看模糊的舞蹈录像（视频模态）和失真的动作记录（动作模态），然后逐步还原出完整的舞蹈编排。

技术实现上，这种联合去噪通过特殊的注意力掩码策略实现。模型采用分块处理方式，每个视频-动作块可以关注前面已去噪的干净块，但不能关注同一块内其他时间步的信息。这种设计既保持了时序依赖性，又确保了局部去噪的独立性。公式(3)中的流匹配目标函数巧妙地平衡了两种模态的去噪速度，使它们在学习过程中保持同步。

2.2 自回归架构的闭环优势

与双向模型相比，DreamZero选择自回归架构有其深刻考量。在真实机器人控制场景中，环境反馈是连续不断的，自回归方式能自然地利用历史观察作为新预测的上下文。更关键的是，通过KV缓存机制，模型可以在执行当前动作块的同时，利用空闲计算资源准备下一个动作块，实现了计算与执行的流水线并行。

实际操作中，这种设计带来了三个显著优势：

保持原生帧率不变，避免因视频降采样导致动作失准
通过实时用真实观察替换预测帧，有效抑制误差累积
支持任意长度上下文，适合长时程任务规划

3. 从实验室到现实：实时控制的工程突破

3.1 异步执行架构

将14B参数的扩散模型用于实时控制面临巨大挑战。原始版本的DreamZero在单GPU上需要5.7秒处理一个动作块，远不能满足机器人控制毫秒级响应的需求。工程团队通过创新的异步执行架构解决了这一难题：将动作执行与模型推理解耦，使机器人可以连续执行最新可用的动作指令，而模型在后台持续生成新的控制命令。

这种设计转变了问题的本质——从"必须在动作完成前产生新指令"的硬实时约束，变为"在动作块有效期内完成计算"的软实时要求。对于48步、30Hz控制频率的双手臂机器人，这意味着将延迟容忍度从33ms放宽到约200ms，为复杂计算赢得了宝贵时间。