当前位置: 首页 > news >正文

【ICLR26-鲁继文团队-清华大学】Astra:具有自回归去噪功能的通用交互式世界模型


文章:ASTRA: GENERAL INTERACTIVE WORLD MODEL WITH AUTOREGRESSIVE DENOISING

代码:https://github.com/EternalEvan/Astra

单位:清华大学、快手科技


一、问题背景

当下扩散Transformer技术让视频生成模型能产出高质量短片,但真正能落地的“世界模型”仍有明显短板:现有模型要么只能生成独立短片段,无法响应相机运动、机器人操作等实时动作输入;要么在长时预测中难以平衡时序连贯性与动作响应性,容易出现误差累积、视觉漂移;同时,面对相机控制、机器人姿态、键盘指令等异质动作模态,通用性不足,难以适配自动驾驶、机器人操作等复杂真实场景。构建兼具交互性、长时一致性与多场景适配能力的通用世界模型,成为行业亟待突破的核心需求。

二、方法创新

ASTRA以“自回归去噪”为核心框架,用三大关键设计破解行业痛点:

  1. 动作感知适配器(ACT-Adapter):在预训练视频扩散模型基础上,通过轻量线性层将动作信号直接注入 latent 空间,搭配“无动作引导(AFG)”机制,既保留高保真生成能力,又实现对动作指令的精准响应。

  2. 噪声增强历史记忆:采用“噪声掩码”策略,训练时对历史帧注入随机噪声,避免模型过度依赖过往视觉信息(即“视觉惯性”),巧妙平衡长时时序一致性与动作响应灵敏度。

  3. 动作专家混合体(MoAE):通过模态投影、动态路由与专家聚合,将相机姿态、机器人动作、键盘指令等异质动作统一编码,让模型灵活适配多场景交互需求。

三、实验结果

ASTRA在多数据集与自建Astra-Bench基准上表现亮眼:

  • 定量指标全面领先:在指令遵循度、主体/背景一致性、运动流畅度等6项核心指标上,显著超越Wan-2.1、MatrixGame、YUME等SOTA模型,旋转误差低至1.23、平移误差4.86,指令遵循度达0.669。

  • 长时预测稳定可靠:能生成8-10秒高连贯视频,避免了同类模型常见的长序列误差累积问题。

  • 跨场景泛化能力强:不仅在自动驾驶、机器人操作、相机控制等目标场景表现优异,还能适配室内环境、动漫风格、Minecraft游戏等未训练场景,动作响应精准度保持稳定。

四、优势与局限

核心优势
  1. 交互性突出:可实时响应多模态动作输入,生成结果与指令高度对齐,打破传统视频生成的“被动输出”局限。

  2. 通用性极强:通过MoAE统一异质动作模态,无缝适配探索、机器人、自动驾驶等多类场景。

  3. 参数高效:仅新增366.8M可训练参数,远少于同类模型,无需重训大模型即可实现功能升级。

现存局限

推理效率不足是主要短板:基于扩散生成与自回归迭代机制,每帧需多步去噪处理,难以满足实时交互场景(如在线控制、交互式机器人)的低延迟需求。

五、一句话总结

ASTRA通过自回归去噪框架+三大创新设计,打造出兼具高保真、强交互、长时一致的通用世界模型,为自动驾驶、机器人操作等真实场景的模拟与探索提供了高效解决方案,同时也为轻量化实时世界模型的研发指明了方向。

http://www.jsqmd.com/news/352385/

相关文章:

  • 轻量级零依赖的Web项目进度可视化方案:如何用jsGantt-Improved实现前端任务调度
  • bypass-paywalls-chrome-clean深度测评:如何合法绕过付费内容限制
  • 2026年平面测力传感器公司权威推荐:微型测力传感器/微型称重传感器/微量程称重传感器/悬臂梁式称重传感器/拉压力测力传感器/选择指南 - 优质品牌商家
  • 解决vLLM安装卡在vllm-nccl-cu12依赖项的实战指南
  • Dism++规则库配置文件深度优化指南:提升系统清理效率的技术实践
  • Dify多租户计费引擎深度解耦(从硬编码到插件化):支持按Token/调用量/知识库规模的三级计量SDK开源实践
  • 计算机应用技术毕设免费源码:从选题到部署的完整技术实践指南
  • 终极解决Koikatsu Sunshine语言障碍!KKS-HF_Patch三步安装指南
  • Dify API成本失控警报:LLM token计费偏差达37.2%,精准计量+动态采样压缩的3层成本治理模型(含开源计量SDK)
  • 5个颠覆认知的网络内容访问突破方法:合法解锁受限信息
  • 轻量级Vue图片处理方案:如何用vue-cropperjs实现专业级图片裁剪?
  • 6种高效破解网页付费限制的实用方法:轻松获取付费内容访问权限
  • Vue图片处理前端组件:打造高效轻量的图片裁剪解决方案
  • 音频格式转换实战指南:Silk-V3-Decoder全平台解决方案
  • 4步实现数据血缘可视化:SQLFlow技术原理与实战指南
  • Dify日志体积暴增300%?3步精简冗余日志、提升查询效率90%的生产级调优法
  • 一个时代结束:JetBrains官宣向个人完全免费,你的破解版该“光荣退休”了。
  • 揭秘QuickBMS:游戏逆向工程与资源提取全攻略
  • 2026年轮辐式测力传感器厂家推荐:微量程称重传感器、悬臂梁式称重传感器、拉压力测力传感器、柱式测力传感器、桥式称重传感器选择指南 - 优质品牌商家
  • 零基础入门游戏开发框架:3大创新功能助你打造专属游戏世界
  • 数据驱动阿尔比恩OL:游戏数据指挥官的策略指南
  • 驯服多任务:让开发者的大脑像多线程CPU一样工作
  • 事务处理的相关概念
  • KKS-HF_Patch完全指南:3步解锁Koikatsu Sunshine中文界面与完整内容
  • 5个技巧让你的IDE秒变代码导航神器:MultiHighlight插件全方位提升开发效率
  • 探索宝可梦游戏开发:从零开始的同人创作之旅
  • Dify边缘推理延迟骤降92%?揭秘TensorRT加速+模型量化双引擎协同的4层压缩架构
  • 3大痛点+5步落地:零基础掌握CodeBERT代码智能开发全流程
  • EEG信号解码:运动想象分类与脑电特征工程技术解析
  • 如何让Koikatsu Sunshine完全中文化?4个简易步骤解锁完整游戏体验