当前位置：首页 > news >正文

WAM-202512：Motus架构分析【MoT、UniDiffuser 风格的调度器支持在多种建模模式之间灵活、利用光流（Optical Flow）学习潜在动作（Latent Actions）】

news 2026/6/22 14:43:46

Motus 模型架构详细分析

基于论文 Motus: A Unified Latent Action World Model 与项目源码的综合分析

目录

Motus 模型架构详细分析
- 目录
- 1. 总体概述
- 2. 整体架构总览
- 3. 三大专家模块详解
  - 3.1 视频生成专家 (Video Generation Expert / VGM)
  - 3.2 理解专家 (Understanding Expert)
  - 3.3 动作专家 (Action Expert)
- 4. Mixture-of-Transformers (MoT) 三模态联合注意力
  - 每层计算流程
  - 技术实现细节
- 5. 训练与推理机制
  - 5.1 Flow Matching 训练
  - 5.2 ODE 推理去噪
- 6. 数据金字塔与三阶段训练流水线
  - 六层数据金字塔
  - 三阶段训练流水线
- 7. 五种建模模式切换
- 8. 关键设计细节与创新点
  - 8.1 架构层面
  - 8.2 训练层面
  - 8.3 数据层面
  - 8.4 推理层面
- 9. 参数统计
- 总结
- 附录 A: WAN 自注意力 MoT 修改详解
  - A.1 原生 WAN 自注意力
  - A.2 MoT 修改后的自注意力
- 附录 B: 项目代码结构
- 附录 C: 完整数据流示例 (训练步)
- 附录 D: 关键超参数汇总

1. 总体概述

Motus 是一个统一的潜在动作世界模型（Unified Latent Action World Model），由清华大学机器学习研究组（thu-ml）提出。其核心理念是：通用具身智能体应当作为一个统一系统运行，而非由理解、世界建模和控制等孤立模型拼凑而成。Motus 通过以下关键创新解决了当前方法的碎片化问题：

Mixture-of-Transformers (MoT)架构，将三个专家模块整合到统一的自注意力框架中
UniDiffuser 风格的调度器，支持在多种建模模式之间灵活切换
利用光流（Optical Flow）学习潜在动作（Latent Actions），提取像素级 “delta action”
三阶段训练流水线+六层数据金字塔，实现大规模动作预训练

实验结果表明，Motus 在仿真环境中比 X-VLA 提升 15%，比 π₀.₅ 提升 45%，在真实场景中提升 11%~48%。

2. 整体架构总览

Motus 由三个核心专家模块组成，通过30 层统一的 MoT 联合自注意力层进行深度融合：

3. 三大专家模块详解

3.1 视频生成专家 (Video Generation Expert / VGM)

基础模型: Wan2.2-TI2V-5B（约 50 亿参数）

核心组件:

http://www.jsqmd.com/news/749748/

相关文章：

AI提示词与模型仓库：系统化提升人机对话效率的开源实践

【Java 25 ZGC 2.0生产调优黄金清单】：23个必配参数+7大避坑指南，上线前不看=埋雷

5分钟掌握网易云音乐NCM文件解密：ncmdumpGUI完整使用指南

【MySql】安装与使用实战（MySQL Community Server 9.7.0 LTS）

选电容别再只看容量了！工程师必懂的5个关键参数：从ESR、自谐振频率到直流偏压特性

从随机数到命运裁决：构建可编程随机事件引擎的实践指南

NVIDIA Nemotron Nano V2 VL：轻量级视觉语言模型边缘计算实践

Skill Forge v2：基于自主实验循环的AI技能与代码自动化优化引擎

3步搞定NCM加密音乐格式转换：释放你的音乐收藏自由

深度学习权重衰减优化与AdamW迁移实践

别再被C++ Build Tools卡住了！Python包安装报错的3种轻量级解决方案（附实测对比）

怎样快速解密微信聊天记录：面向普通用户的完整教程

如何在3分钟内为PotPlayer添加智能字幕翻译：让外语视频轻松看懂

STM32与NRF24L01无线通信避坑指南：从SPI配置到稳定收发（附工程源码）

从无人机扫描到3D打印：用CloudCompare完成点云缩放与变换的完整实战流程

终极免费GTA5线上助手：提升游戏体验的完整解决方案

终极指南：如何使用Universal x86 Tuning Utility解锁硬件性能潜力

从神圣到世俗：互联网技术民主化与Web开发演进全解析

如何通过三步配置实现Windows系统权限管理工具的终极控制？

解锁动物森友会无限可能：NHSE存档编辑工具完全指南

免费词典API架构深度解析：多语言词典查询服务的5大核心技术实现

3步解锁PS手柄在Windows的完整潜力：从零到精通的游戏控制器革命

基础模型可靠性保障：技术实现与工程实践

AI 到底是如何夺走工作的

AI助力科研绘图：PaperBanana自动化图表生成技术解析

基于WebSocket与CDP协议实现本地IDE与云端浏览器自动化交互

如何高效备份微信聊天记录：WeChatMsg完整导出指南

OmniRetarget技术：机器人运动控制与场景交互的革命

如何快速构建多语言词典应用：免费Dictionary API完全指南

Windows驱动存储管理终极指南：DriverStore Explorer深度解析与实战应用