当前位置: 首页 > news >正文

【论文阅读】MEM: Multi-Scale Embodied Memory for Vision Language Action Models

快速了解部分

基础信息(英文):

1.题目: MEM: Multi-Scale Embodied Memory for Vision Language Action Models
2.时间: 2025.04
3.机构: Physical Intelligence, Stanford University, UC Berkeley, MIT
4.3个英文关键词: VLA, Memory, Video Encoder

1句话通俗总结本文干了什么事情

本文提出了一种名为MEM的多模态记忆架构,通过结合短时视觉记忆和长时语言记忆,解决了机器人模型在处理长达十几分钟的复杂任务时的记忆与效率平衡问题。

研究痛点:现有研究不足 / 要解决的具体问题

现有VLA模型大多无记忆或仅依赖密集的历史观测,导致在面对长周期、多步骤的复杂任务(如烹饪、清洁)时,无法兼顾长期语义记忆(如“已加过盐”)和短期视觉细节(如防遮挡),且计算成本过高难以实现实时推理。

核心方法:关键技术、研究设计(简要)

采用“双轨制”记忆设计:利用高效的视频Encoder处理秒级的密集视觉帧(短时记忆),同时利用语言摘要机制记录和更新任务进度的文本描述(长时记忆),两者结合使模型既能处理细节操作又能记住宏观进度。

深入了解部分

作者想要表达什么

作者旨在证明,单一模态的记忆形式(如仅靠图像或仅靠文本)无法有效解决机器人在开放世界中的长程任务需求;通过将视觉的“空间细节”与语言的“语义压缩”在不同时间尺度上解耦并结合,可以在不牺牲推理速度的前提下,极大提升机器人的任务完成能力和对错误的上下文适应能力。

相比前人创新在哪里

创新点在于多模态与多尺度的结合:不同于前人仅使用图像历史或简单的Keyframe抽帧,本文明确区分了短时(视频流)和长时(语言流)记忆,并设计了无需额外参数的视频Encoder(基于ViT修改Attention机制)以及具备压缩能力的语言记忆更新机制,解决了长视频输入的计算瓶颈和长文本记忆的分布偏移问题。

解决方法/算法的通俗解释

把机器人的记忆比作人脑:短时记忆就像“眼前几秒的画面回放”,用来防手遮挡物体或纠正抓取动作,用视频Encoder压缩处理;长时记忆就像“脑子里的任务清单”,记的是“步骤A已完成”,用语言模型生成摘要。两者互不干扰,共同工作。

解决方法的具体做法

  1. 短时视觉记忆:修改ViT的Attention层,每隔几层加入时间维度Attention,将过去几秒的视频帧压缩编码,输入到VLA Backbone。
  2. 长时语言记忆:训练一个高层策略网络,根据当前观察和旧记忆,生成新的语言摘要(如“已拿盘子,放入碗”),自动压缩冗余信息。
  3. 整合:将压缩后的视频特征和语言摘要同时输入π0.6 VLA模型,指导动作生成。

基于前人的哪些方法

基于π0.6 VLA模型(Base Model);借鉴了ViT的架构;参考了Space-Time Separable Attention(视频理解领域)的思想来设计视频Encoder;利用了Gemma3-4B作为基础VLM。

实验设置、数据、评估方式、结论

在包含烹饪(准备食材)、清洁厨房(长达15分钟)等长程任务上测试;使用π0.6作为基准,对比了无记忆、平均池化记忆、仅本体感知记忆等变体;评估指标为任务成功率。结论:MEM显著提升了长程任务成功率,且能利用短时记忆纠正抓取错误(In-Context Adaptation),优于单一模态记忆方案。

提到的同类工作

RT-2, Octo, PaLM-E, Fast, Gemini Robotics, Gr00t n1, VideoMamba, SAM2ACT, CronusVLA, OneTwoVLA.

和本文相关性最高的3个文献

[1] π0.5: a vision-language-action model with open-world generalization, 2025.
[2] Is space-time attention all you need for video understanding? , 2021.
[3] Palm-e: An embodied multimodal language model.

我的

  1. 分为2个模型,一个负责输出记忆(纯语言),一个负责接收subtask prompt。
http://www.jsqmd.com/news/873809/

相关文章:

  • 四川木饰面墙板工厂哪个靠谱 - 资讯纵览
  • DeepSeek总结的从 DuckDB 迁移到 chDB基准测试
  • 2026年亲测AI论文网站合集(实测甄选版)
  • 佛山公司法诉讼律师哪位专业 - 资讯纵览
  • 【AI入门知识点】Harness 是什么?为什么 DeepSeek 要组建 Harness 团队?
  • AI项目GPU选型策略:任务匹配、显存计算与TCO优化指南
  • 线路板清洁度检测设备/检测仪/分析系统优质产品 ,西恩士工业 - 工业设备研究社
  • MuMu模拟器12 HTTPS抓包失效原因与系统级证书注入方案
  • 工业AI落地:从数据冷启动到高质数据工程实战
  • 深圳SMP纹发培训机构哪家最有实力 - 资讯纵览
  • GEO 2.0时代:当大模型开始“理解“品牌,优化逻辑彻底变了
  • 企业内如何通过Taotoken实现API访问控制与审计
  • iTunes登录协议逆向解析:设备指纹与动态挑战响应机制
  • 实战指南:使用ZXing.Net解决.NET应用中的条码识别与生成问题
  • 线路板清洁度分析金属、非金属、纤维杂质,西恩士工业 - 工业设备研究社
  • 2026北京一次性餐盒包装盒厂家怎么选?瀚隆包装当之无愧top级 - 企业深度横评dyy6420
  • Unity后台运行实战:iOS音频模式与Android前台服务双平台方案
  • 2026年AI论文写作工具实测排行,哪款真正适合一站式撰稿?
  • FlashAttention的OOM排查:为什么显存够了还是报内存不足?
  • 2025模型压缩范式:硬件感知剪枝与数据流驱动量化
  • 2026年北京餐饮外卖打包盒厂家推荐:瀚隆包装为什么适合单店与连锁餐饮共同选择? - 企业深度横评dyy6420
  • 紧急更新|Midjourney官方刚悄悄调整water rendering pipeline!3小时内必须掌握的4项prompt重写准则
  • Unity 2D农场游戏交互协议设计:从砍树到种田的统一架构
  • Unity WebGL文本输入解决方案:DOM桥接与IME兼容架构
  • 重庆全屋定制工厂哪个更实惠 - 资讯纵览
  • Unity后台运行实战指南:Android前台服务与iOS后台模式配置
  • Unity开发者首选VSCode配置指南:高效替代Visual Studio
  • 北海少儿舞蹈培训机构哪家更受青睐 - 资讯纵览
  • 线路板清洁度萃取+分析全套设备实力厂家推荐,西恩士工业 - 工业设备研究社
  • WzComparerR2完整指南:冒险岛游戏数据提取与可视化分析工具