当前位置: 首页 > news >正文

【论文阅读】StereoVLA: Enhancing Vision-Language-Action Models with Stereo Vision

快速了解部分

基础信息(英文):

1.题目: StereoVLA: Enhancing Vision-Language-Action Models with Stereo Vision
2.时间: 2025.12
3.机构: Galbot, Peking University, The University of Hong Kong, Institute of Automation. Chinese Academy of Sciences, Beijing Academy of Artificial Intelligence, Xiamen University Malaysia
4.3个英文关键词: Stereo Vision, VLA, Geometric-Semantic Feature Extraction

1句话通俗总结本文干了什么事情

本文提出了一种名为StereoVLA的模型,通过引入双目立体视觉,显著增强了机器人视觉语言动作模型(VLA)的空间感知和操作精度。

研究痛点:现有研究不足 / 要解决的具体问题

现有的VLA模型大多依赖单目RGB相机,缺乏精确的几何空间感知能力,导致机器人在抓取、放置等精细操作上表现不佳;而引入额外的深度传感器或腕部相机又会增加硬件复杂度或导致视野受限。

核心方法:关键技术、模型或研究设计(简要)

提出了一种“几何-语义特征提取”模块,融合了双目视觉的几何特征和单目视觉的语义特征,并引入了一个辅助的“交互区域深度估计”任务来训练模型关注关键空间细节。

深入了解部分

作者想要表达什么

作者旨在证明,通过模仿人类的双目视觉机制,可以在不增加过多硬件负担的情况下,为VLA模型提供丰富的几何线索,从而解决机器人操作中“看得见但摸不准”的痛点,实现更鲁棒、更精准的控制。

相比前人创新在哪里

  1. 首次系统性地将立体视觉引入VLA领域:不同于以往VLA主要使用单目或多视角(非立体)相机,本文专门针对立体视觉设计了特征提取方案。
  2. 独特的特征融合策略:没有简单地将左右图像拼接输入,而是利用视觉基础模型分别提取“几何特征”和“语义特征”进行融合,兼顾了空间精度和语言理解能力。
  3. 交互区域深度估计辅助任务:设计了一个新的训练任务,强制模型只关注夹爪和物体交互区域的深度信息,提高了训练效率和对关键空间细节的敏感度。

解决方法/算法的通俗解释

想象一下,模型现在有了“两只眼睛”(立体视觉)。作者设计了一个特殊的“大脑回路”(几何-语义特征提取),让模型既能通过两只眼睛的微小差别算出物体的远近(几何),又能看清单个物体是什么(语义)。同时,为了让模型更专注,还专门训练它去预测夹爪附近物体的深度(交互区域深度估计),就像人眼在抓东西时会特别聚焦于手和物体的距离一样。

解决方法的具体做法

  1. 几何特征提取:使用FoundationStereo模型处理左右图像,提取经过滤波处理的成本体积(filtered cost volume)作为几何特征,捕捉空间结构。
  2. 语义特征提取:使用SigLIP和DINOv2模型处理左图像,提取高层语义和视觉细节。
  3. 特征融合:将几何特征的空间分辨率调整到与语义特征一致,然后在通道维度上进行拼接,输入给大语言模型。
  4. 辅助任务训练:在训练时,除了预测动作,还要求模型预测夹爪与目标物体交互区域内的点的深度值,以此增强模型的空间理解。

基于前人的哪些方法

  1. FoundationStereo:用于提取立体视觉的几何特征。
  2. PrismaticVLM:借鉴了其使用SigLIP和DINOv2提取语义特征的方法。
  3. InternLM-1.8B:作为大语言模型骨干。
  4. GraspVLA:借鉴了其数据生成方式、部分训练策略(如渐进式动作生成)以及辅助的2D边界框预测任务。

实验设置、数据、评估方式、结论

  1. 数据:由于缺乏现成的大规模立体视觉机器人数据集,作者使用MuJoCo和Isaac Sim生成了500万条合成的抓取和放置轨迹,并加入了GRIT数据集。
  2. 评估方式:在真实机器人上测试,包括通用任务、不同角度的条状物体抓取、中小物体抓取。设置了严格的评价标准(单次尝试、无粘手策略、完全完成才算成功)。
  3. 结论:StereoVLA在立体视觉设置下显著优于现有的VLA基线模型(如GraspVLA-S, π0.5-S),在通用任务上成功率高出33%,且对相机姿态变化具有很强的鲁棒性。

提到的同类工作

  1. OpenVLA:早期的VLA模型,依赖单目图像。
  2. π0.5:支持多视角(如前+腕),但未专门针对立体视觉优化。
  3. GraspVLA:大规模合成预训练VLA,主要针对前+侧视角。
  4. SpatialVLA:尝试引入深度信息,但基于单目估计深度。
  5. 3D-VLA / PointVLA:引入3D点云或深度信息的VLA模型。

和本文相关性最高的3个文献

  1. **GraspVLA **:本文主要的基线模型之一,作者借鉴了其数据合成方法和部分架构设计,是本文对比和改进的重要对象。
  2. **FoundationStereo **:本文几何特征提取的核心基础模型,用于从立体图像中提取密集的几何信息。
  3. **PrismaticVLM **:本文语义特征提取方法的来源,提供了SigLIP和DINOv2的使用方案。

我的

  1. 深度相机存在透明物体估计不准的问题,所以将立体视觉引入VLA。输入双目图像。对相机姿态变化更鲁棒。
http://www.jsqmd.com/news/871159/

相关文章:

  • 杰理之芯片只有单通道LADC【篇】
  • 如何挑选靠谱的银泰百货卡回收平台 - 购物卡回收找京尔回收
  • 从测试分类到缺陷管理
  • 终极指南:如何5分钟快速上手跨平台资源捕获神器res-downloader
  • 性能测试方案设计的方法和思路
  • OpCore Simplify:专业级OpenCore EFI自动化配置解决方案
  • 如何快速分析浏览器扩展源码:终极在线工具完整指南
  • 3分钟快速启用Windows Insider预览版:无需微软账户的完整指南
  • YOLOv10 AI瞄准辅助系统:实时游戏目标识别的技术深度解析
  • Source Sans 3:打破字体加载瓶颈的现代无衬线字体解决方案
  • 终极指南:如何用TQVaultAE管理你的泰坦之旅装备库
  • 都市噪音救星✨|隔音窗选对不踩坑,静华轩夹胶玻璃才是真刚需 - 维小达科技
  • 2026年4月比较好的固化剂地坪企业推荐,环氧地坪/防腐地坪/环氧自流平/西卡聚氨酯砂浆地坪,固化剂地坪品牌选哪家 - 品牌推荐师
  • 5分钟部署高性能静态服务器:Rust实现的轻量级HTTP文件服务解决方案
  • 域名后缀怎么选?聊聊(.ai / .app / .art 等)
  • SleeperX:革命性macOS智能电源管理,重新定义笔记本续航体验
  • 杰理之FM搜台的参数打印【篇】
  • 3个理由让你爱上VR-Reversal:在普通电脑上自由探索VR世界
  • Qiskit社区教程:三步开启你的量子计算学习之旅
  • 中银通支付卡怎么回收?3种正规方式、最新价格与防骗技巧 - 可可收公众号
  • 通过Taotoken CLI工具一键配置多开发环境下的API接入
  • Find Hub 新增“位置到达与离开”通知功能
  • WebPageTest:构建企业级网页性能监控的终极解决方案
  • 杭州西装定制靠谱店铺口碑权威榜 - 西装爱好者
  • 还在找免费 EDA 模型?这些网站直接下
  • 如何一键解锁Honey Select 2完整汉化与去码功能:终极增强指南
  • 2026贵阳工作服定制深度测评:6家本地厂商全维度实测对比,企业定制不踩坑 - 贵州服装测评君
  • Bifrost三星固件下载器:3分钟掌握官方固件下载与解密的终极指南
  • 微信小程序161~200
  • 如何实现精准胶片色彩?深度解析t3mujinpack开源胶片仿真技术架构