当前位置：首页 > news >正文

世界动作模型（WAM）的泛化能力是否优于视觉语言动作模型（VLA）？

news 2026/5/2 16:46:41

世界动作模型（WAM）的泛化能力是否优于视觉语言动作模型（VLA）？

这篇文章是基于华为技术有限公司所做的研究基础上撰写的，华为技术有限公司在多种环境扰动与语言扰动条件下，对世界动作模型（WAM）和视觉 - 语言 - 动作策略（VLA）展开了系统性对比研究。

结果表明：得益于视频预训练带来的时空先验知识，WAM 对视觉扰动通常具备更强的鲁棒性，但其推理速度显著慢于 VLA。

现代机器人策略设计基础

在非结构化环境中执行机器人动作规划，要求策略同时具备鲁棒性与自适应能力。该领域早期主要依赖运动规划算法与人工工程设计，而大规模基础模型的发展，使研究范式转向数据驱动型策略。目前主流的两类代表性架构分别为：视觉 - 语言 - 动作（VLA）模型与世界动作模型（WAMs）。

视觉 - 语言 - 动作模型（如 OpenVLA、π0.5）以视觉 - 语言模型（VLM）为基础构建。这类系统通常接收连续视觉观测与自然语言指令，输出机器人控制动作。尽管其在特定任务上表现优异，但在面对未见过的场景或存在显著视觉扰动的环境时，泛化能力仍有待验证。VLA 往往依靠预训练语言与视觉主干网络中的隐式知识来理解物理世界。

与之相对，世界动作模型（WAM）显式引入了世界建模模块。这类模型基于当前观测与潜在动作，对环境未来状态进行预测。通过采用大规模视频生成模型作为主干网络，WAM 试图从互联网级视频数据中习得对物理动力学与时间一致性的基础认知。本研究旨在探讨一个核心问题：相较于 VLA 的隐式建模方式，WAM 中显式的动力学预测与时空先验，是否能带来更优的鲁棒性与泛化性能。

架构对比：视觉 - 语言 - 动作模型（VLA）与世界动作模型（WAM）

要理解二者性能差异，必须深入分析这两类模型的底层架构与预测机制。

视觉 - 语言 - 动作（VLA）模型

http://www.jsqmd.com/news/739123/

相关文章：

Flyte：云原生AI工作流引擎，从ML实验到生产部署的实践指南

压力传感器哪个品牌靠谱？2026行业标杆认准广东犸力 - 速递信息

八大网盘直链解析技术深度解析：架构设计与性能优化指南

设备突发停机损失高达23万/小时？用Python搭建实时故障概率看板，3天上线，ROI测算模板免费送

高二下期中考试总结

在自动化工作流中集成 Taotoken 实现大模型能力的按需调用

离散扩散模型高效采样：Floyd算法与Softmax近似技术

OpenCode桌面版配置Deepseek v4教程

B站m4s视频转换终极指南：3分钟实现无损格式转换的完整方案

压力传感器行业排名哪家好？2026值得信赖选广东犸力 - 速递信息

CodeMaker深度实战指南：企业级Java/Scala代码自动化生成架构解析

使用 Hermes Agent 时如何配置 Taotoken 作为自定义供应商

短视频去水印工具推荐：免费去水印方法大全，2026实测哪些真的好用？ - 科技热点发布

Markdown Viewer：让浏览器成为你的专业文档阅读器

League Akari：英雄联盟玩家的智能本地助手

终极指南：如何快速掌握暗黑2存档编辑，打造完美角色体验

Zotero茉莉花插件：3步搞定中文文献管理，科研效率提升90%

文章1：《2026年新能源驱动电机真空灌胶机厂家推荐指南：十大主流品牌技术对比》___## 导读4-27 - 自动化老兵

通过 curl 命令直接测试 Taotoken 聊天补全接口的配置与排错方法

抖音视频怎么保存到本地去水印？2026抖音去水印最新方法实测，这几招简单又好用 - 科技热点发布

AntiMicroX终极指南：如何用手柄玩转所有PC游戏

别再傻傻分不清了！Qt中QString的indexOf()和find()到底有啥区别？

DDrawCompat技术解析：Windows系统下DirectX 1-7兼容层实现方案

PySpice终极指南：如何用Python轻松完成专业级电路仿真

Auto.js悬浮按钮UI模板详解：从代码注释到实战避坑，新手也能5分钟上手

多会话协作系统中的用户偏好模拟技术解析

基于kognetiks-chatbot的AI Agent框架：从工具调用到工程化部署

开源AI原生代码编辑器Void：构建可定制、隐私优先的编程助手

中兴光猫解锁终极指南：5分钟获取完整root权限的完整教程

基于MCP协议构建智能文件管理工具：从原理到实践