当前位置: 首页 > news >正文

上海交大MINT团队提出Evo - Depth:不增硬件负担,兼顾机器人VLA性能与部署效率

【导语:大量VLA模型主要依赖二维视觉,在空间感知任务上成功率下滑,补空间信息的现有路线各有代价。上海交大MINT团队提出Evo - Depth中间路线,兼顾性能与部署效率,代码等已全面开源。】


现有VLA模型空间感知难题待解

目前,机器人虽有视觉能力,但大量VLA模型主要依赖二维视觉。一旦遇到精定位、细摆放、遮挡判断这类需要空间感知的任务,成功率就会明显下滑。

补空间信息有显式3D和隐式3D两条路线,但都有代价。显式3D路线靠深度传感器和点云重建,硬件链路长、对标定误差敏感;隐式3D路线从RGB学几何,省了硬件,但不少方案依赖较重的基础模型,训练和推理成本偏高。

Evo - Depth:中间路线新突破

上海交大MINT团队提出的Evo - Depth约0.9B参数,不额外增加硬件负担,用紧凑的隐式深度编码把空间感写进VLA策略里,兼顾了仿真与真机的性能与部署效率。在仿真端,Meta - World达到84.4%、LIBERO达到95.4%;真机平均成功率约90%;部署侧约3.2 GB显存、约12.3 Hz推理频率。

Evo - Depth的核心思路是从多视角RGB提取紧凑的隐式深度表征,再以轻量方式融入视觉 - 语言通路,最后通过flow - matching动作专家输出连续动作。

系统三部分协同运作

整个系统主要由三部分组成。IDEM(Implicit Depth Encoding Module)负责从多视角图像中提取隐式深度特征,强调空间布局与相对几何关系,骨干约0.13B参数,并结合多视角深度预训练初始化,在轻量条件下引入与深度相关的归纳偏置。

SEM(Spatial Enhancement Module)将隐式深度作为一种调制信号,用于增强视觉 - 语言表征。这种融合方式更克制,原有VLM继续负责语义理解,深度特征主要负责空间增强,同时尽量控制延迟与显存开销。

Progressive Alignment Training采用分阶段训练方式逐步完成深度表征对齐 - 多模态融合 - 动作学习。动作头则采用了当前VLA中较常见的flow - matching路线。

性能 - 成本 - 实时性折中方案

Evo - Depth解决了如何在不显著增加系统负担的情况下,提升VLA的空间能力这一问题。相比纯二维VLA,它补充了空间信息;相比更重的3D路线,它又尽量保留了部署效率。

编辑观点:Evo - Depth为机器人VLA领域提供了一种性能、成本与实时性相平衡的方案,有望推动机器人操作、空间智能等相关领域发展。

http://www.jsqmd.com/news/892340/

相关文章:

  • 别再折腾桥接了!用VirtualBox的Microsoft环回适配器搞定虚拟机与宿主机互访(Win10/11实测)
  • AI大模型不够聪明?别慌!这个“信息补给站“让它在你的工作中大放异彩!
  • LP3798SC 九重保护全解析:触发条件 + 恢复机制 + 设计避坑
  • Burp Suite HTTPS抓包失败的根源与全平台CA证书配置指南
  • Qt5中comboBox控件更新列表内容
  • BACnet网络层协议控制信息(NPCI)深度解析:从比特位到网络报文
  • 华为发布“韬(τ)定律”,预计2031年高端芯片晶体管密度达1.4纳米水平
  • 怎样3步完成QQ音乐加密格式转换:智能解密工具实战指南
  • 如何高效获取网盘直链下载地址:完整实战指南
  • 部队营区信息化管理系统:联管联控一体化
  • 当 Agent 开始调用 Skill:复杂度是如何被指数放大的?
  • 收藏!211本科985硕拿下淘天AI二面,无代码考察,这些是关键!小白程序员必备学习指南
  • 2026实测:即梦导出不带水印原图方法,即梦去水印设置全攻略
  • 协调控制柜在微电网中的核心地位:数据枢纽、控制核心、安全屏障
  • YOLOv8密集行人识别检测系统(项目源码+YOLO数据集+模型权重+UI界面+python+深度学习+环境配置)
  • 当AI成为公司的操作系统:一场两千年来最彻底的组织革命
  • Uncle小说阅读器:一站式PC端数字图书馆解决方案
  • AV1与VVC视频编码的算法优化与硬件设计实战解析
  • 告别低效制作!解锁 okbiye AI PPT 新玩法,高效完成毕业论文答辩演示文稿
  • 基于GPS与ATmega328P的高精度时钟设计与实现
  • 2026即梦去水印手机版教程|安卓苹果通用,即梦APP无水印下载方法
  • 华为“韬(τ)定律”深度解读:后摩尔时代芯片设计的新范式
  • m4s-converter实战:B站缓存视频高效转换完整方案
  • 年增3.1%!雷达系统行业韧性十足,智能化升级提速
  • 对比按次计费,Taotoken的Token Plan套餐如何为长期项目节省成本
  • 2026免费去水印在线使用网站有哪些?免费去水印在线工具推荐
  • 2026年5月唐山地区黄金回收白银铂金回收甄选门店推荐TOP1 地址及联系方式 - 五金回收
  • H5P交互式视频实战宝典:从零到一打造沉浸式学习体验
  • Taotoken用量看板与成本管理功能如何帮助团队控制API支出
  • CC2745R10-Q1蓝牙6.0模块实现车载厘米级精准测距