当前位置：首页 > news >正文

World Action Model的本质：视频动作统一建模

news 2026/5/3 17:37:32

思考现有的World Action Model的本质:

上图的attention中：Query 从 Key/Value 读取信息。信息流方向：Key/Value → Query
attention四宫格中，video->video的attention block也就是视频生成，是目前学得最好的，具身的终极目标是学好action->action也就是action的建模。剩余两条路线就是world models和inverse dynamics models。
核心问题是如何让视频生成的先验“流”到action上。
此前大家VLA直接去做action的建模，想直接完成目标，也就是右下角attention block。但action数据严重不足，缺乏world knowledge、物理先验。
现在视频生成模型成熟以后（特别是2026是个拐点），action终于能从视频生成的重要先验中极大受益。
callback到之前Motus提到的点，这种四宫格的视角，最本质的点在于能吸收所有各类多模态异构数据：
- 纯视频：视频生成
- 纯dynamics无任务： World Models, IDM
- 含action的任务轨迹数据：Policy
video那里可以扩展成observation，未来包括力反馈、触觉、音频等所有环境反馈（POMDP对世界的统一建模），真就变成世界模型
关于先验如何从video流向action，梳理出几条路线：
- Video Generation->IDM(->Policy)（左下路线，Video Generation+IDM）, 可以显式可以隐式。类似于google 23年的UniPi

http://www.jsqmd.com/news/745773/

相关文章：

当网盘下载不再烦恼：LinkSwift如何让文件获取变得简单

鸿蒙系统开发者如何快速接入大模型服务，使用Taotoken实现多模型调用

别再死磕environment.yml了！手把手教你用pip install逐个搞定TensorFlow 1.14.0环境

人工智能---深度学习中的MLOps与WB

越南黑客组织利用GitHub构建僵尸网络：近一年投放600余个StealC恶意压缩包

在多轮对话场景下感受 Taotoken 对上下文长度的稳定支持

Python医疗影像预处理崩溃全记录（CT/MRI/DR三模态调试避坑手册）

TouchGal完整指南：打造高效开源Galgame社区平台的终极方案

从零开始学习数字电路 | Learn Digital Circuits From Scratch

高效二维码工具：Chrome-QRCode完整指南，5分钟掌握跨设备内容传输

贵阳西服定制四家本地商家实测｜客观分析，帮你选择定制渠道 - 生活测评君

为什么BetterGI的自动战斗系统如此智能？深度解析原神自动化辅助工具的技术奥秘

18.人工智能实战：LoRA 微调后效果不升反降？从数据清洗到训练参数的完整排查方案

CVE MCP Server：用一句话让 Claude 变身全能安全分析师

WebPlotDigitizer终极指南：5分钟掌握科研图表数据提取神器

IPXWrapper终极指南：5分钟让经典游戏在现代Windows上重获联机能力

基于Docker与API的本地化TTS服务部署与集成实战

从Sleuth到SkyWalking：一次Java Agent无侵入改造，我的微服务监控体验升级实录

使用 Python 快速接入 Taotoken 并调用 Codex 模型完成代码补全

无需点击即可利用，AVideo 存在高危直播劫持漏洞

Java任务编排框架的终极解决方案：如何用DAG引擎提升微服务架构效率？

如何用League Akari英雄联盟工具箱提升游戏效率：终极完整指南

Doris SQL方言兼容实战：手把手教你用Sql Convertor搞定Trino/SparkSQL迁移

为内部知识库问答系统集成Taotoken多模型能力的架构思考

新手零失败指南：在快马平台用ai生成你的第一个mysql安装实践项目

SSU-Wanda方法：提升LLM跨语言迁移效率的创新方案

Windows装Nacos总报错？从VC++依赖到MySQL配置，一篇讲清所有踩坑点

通过用量看板观测不同模型 API 调用的成本与延迟表现

3分钟掌握Windows Defender永久禁用技巧：开源管理工具完全指南

Vue项目里3D地图‘活了’：ECharts GL环境贴图与交互事件完整配置指南