世界动作模型(WAM)的泛化能力是否优于视觉语言动作模型(VLA)?
世界动作模型(WAM)的泛化能力是否优于视觉语言动作模型(VLA)?
这篇文章是基于华为技术有限公司所做的研究基础上撰写的,华为技术有限公司在多种环境扰动与语言扰动条件下,对世界动作模型(WAM)和视觉 - 语言 - 动作策略(VLA) 展开了系统性对比研究。
结果表明:得益于视频预训练带来的时空先验知识,WAM 对视觉扰动通常具备更强的鲁棒性,但其推理速度显著慢于 VLA。
现代机器人策略设计基础
在非结构化环境中执行机器人动作规划,要求策略同时具备鲁棒性与自适应能力。该领域早期主要依赖运动规划算法与人工工程设计,而大规模基础模型的发展,使研究范式转向数据驱动型策略。目前主流的两类代表性架构分别为:视觉 - 语言 - 动作(VLA)模型与世界动作模型(WAMs)。
视觉 - 语言 - 动作模型(如 OpenVLA、π0.5)以视觉 - 语言模型(VLM)为基础构建。这类系统通常接收连续视觉观测与自然语言指令,输出机器人控制动作。尽管其在特定任务上表现优异,但在面对未见过的场景或存在显著视觉扰动的环境时,泛化能力仍有待验证。VLA 往往依靠预训练语言与视觉主干网络中的隐式知识来理解物理世界。
与之相对,世界动作模型(WAM)显式引入了世界建模模块。这类模型基于当前观测与潜在动作,对环境未来状态进行预测。通过采用大规模视频生成模型作为主干网络,WAM 试图从互联网级视频数据中习得对物理动力学与时间一致性的基础认知。本研究旨在探讨一个核心问题:相较于 VLA 的隐式建模方式,WAM 中显式的动力学预测与时空先验,是否能带来更优的鲁棒性与泛化性能。
架构对比:视觉 - 语言 - 动作模型(VLA)与世界动作模型(WAM)
要理解二者性能差异,必须深入分析这两类模型的底层架构与预测机制。
