当前位置: 首页 > news >正文

World Action Model

写在前面
从过年一直到现在,World Action Model这个概念很火,学术界有很多工作(Cosmos Policy, DreamZero, Motus, LingBot-VA, FastWAM)。感觉在短期的未来可能也是大家的交流话题,在组内和网上学到了很多,这里记录一下信息,也希望能帮助想要了解World Action Model的朋友们。

什么是World Action Model?
首先,什么是World Action Model,它跟我们常说的World Model有什么区别吗?我们常说的World Model其实准确描述应该叫Action Conditioned World Model (AC-WM),输入当前时刻的状态 s_t 和将要执行的动作 a_t,AC-WM会预测出下一时刻的状态 s_{t+1}。这样的建模方式中,动作 a_t 是 AC-WM 的一个输入(即一个condition)。

对于World Action Model(后文简称为WAM)来说,只需要输入当前状态 s_t ,WAM会同时输出对应的动作 a_t 和执行这个动作之后对应的状态 s_{t+1} 。

所以简单来说,AC-WM和WAM的区别为:动作到底是作为模型的输入,还是输出。

World Action Model和VLA的区别与联系
对于一个模型来说,如果能输出动作,其实就可以算一个policy了。目前作为policy的模型,大多数是VLA架构,这里我们又谈到了WAM也可以做policy,那么这两者有什么区别和联系呢?

VLA:充分利用VLM基础模型的能力 + Action Expert

WAM:充分利用Video Generation Model基础模型的能力 + Action Expert

VLA这条路比较好理解,VLM就类似人的大脑,有了思考能力,现在接个身体 (Action Expert) 让它控制。WAM这边利用Video Generation Model的能力生成动作,其实也有一定的道理,因为WAM在训练的时候,可以用未来帧做密集监督,学习世界演变的知识,可能更有利于控制身体。

可能有的同学就要问了,那能不能同时利用VLM和Video Generation Model的能力,构建一个更好的policy?好问题,感觉之后确实会形成VLA+World Model的统一架构。

WAM的经典工作简介和几种范式
最近有很多WAM的工作,这里选取几篇扫过的大致给大家介绍一下。

Motus: A Unified Latent Action World Model

motus
架构很简单,使用了Mixture-of-Transformer将Video Generation Model、Action Expert以及Understanding Model三个模型进行结合。

训练/推理的时候,Video Gen Model输入一段视频的第一帧和加噪声的之后的帧;Action Expert输入纯噪声;Understanding Model输入第一帧和文本。最终实现Video Generation Model预测未来帧,同时Action Expert输出对应的动作。

Cosmos Policy

Cosmos Policy
cosmos policy最有意思的一点是它没有在co

http://www.jsqmd.com/news/735077/

相关文章:

  • 字母e在词首的发音
  • 从气象到金融:Matlab小波相干分析如何帮你发现隐藏的周期关联?附真实案例代码
  • 基于Lua与Plan 9的轻量级可编程路由器实现与架构解析
  • PowerShell 中文乱码“间歇性”发作?真实原因找到了!(附永久修复方案)
  • HPH构造:梁高直降25cm的省钱技术
  • PHP开发者AI转型生死线(2026 Laravel认证新增AI模块):3个月掌握AI Agent开发、评估指标建模与合规审计,仅剩最后217个内测名额
  • 如何永久保存你的数字记忆?WeChatMsg完整免费解决方案
  • STDF-Viewer终极指南:免费解锁半导体测试数据可视化神器
  • 黑马点评新手必看:2大实战坑避坑指南
  • 终极窗口隐私保护神器:Boss-Key老板键一键隐藏你的秘密窗口
  • MATLAB通信工具箱实战:手把手教你用convenc和vitdec函数搞定卷积编译码
  • 物种的栖息温度信息下载(GBIF—OBIS—WOA2018)
  • 通过 Taotoken CLI 工具一键配置开发环境中的多模型密钥
  • 实战分享:用Java搞定北大青鸟JBF293K消防主机串口数据解析(附完整代码)
  • 别再手动装了!用Docker一键部署带中文字体的LibreOffice服务(CentOS/Ubuntu通用)
  • 云原生配置管理利器:gopaddle-io/configurator 深度解析与实践
  • stable编译指令使用
  • D2R Pixel Bot终极指南:暗黑破坏神2重制版自动化运行完整解决方案
  • 从GPT-3.5到Llama 2:开源大模型微调实战,用LoRA让你的模型“听懂”行话
  • SAP MM | S4510 第一章——SAP S/4HANA 库存管理与盘点基础
  • 高压均质机HPH构造全解析
  • 完全掌控你的数字记忆:WeChatMsg让微信聊天数据真正属于你
  • mysql开发环境权限如何与生产隔离_MySQL多环境权限配置策略
  • 嵌入式MCU性能监控实战:从硬件计数器到代码优化
  • VideoSrt深度解析:如何用开源工具实现视频语音自动字幕生成
  • iOS 15-16激活锁绕过终极指南:让闲置iPhone重获新生
  • 普华永道:2025年中国汽车行业并购活动回顾及未来展望
  • 数字孪生AI之语义建模:从原理到国产化实战
  • 长视频理解技术:分层时序建模与动态资源分配实践
  • 2026抛丸喷砂厂防腐涂料合规名录:高盐度防腐涂料/丙烯酸涂料/体育场馆防腐涂料/公路桥梁防腐涂料/厚涂油漆/地坪涂料/选择指南 - 优质品牌商家