当前位置: 首页 > news >正文

【具身智能】VLA 赛道图谱(全景横评)

研究日期: 2026-05-13
覆盖范围: 主流 VLA 模型 + 触觉/多传感器扩展 + 中国玩家
数据基础: 公开论文 + arXiv 5 篇精读 + RynnVLA-002 源码


一、什么是 VLA?

VLA = Vision-Language-Action:吃图像+文字指令,吐机器人动作的端到端模型。

它替代了什么:传统机器人的"感知模块 + 规划模块 + 控制模块"三层 pipeline,现在用一个大模型端到端搞定。

核心问题它解决了:泛化性。传统机器人换个杯子就要重新编程,VLA 模型见过 100 种杯子后,第 101 种也能拿。


二、第一梯队:通用 VLA 主干(拼基础)

模型出品时间参数量核心特点
RT-2Google DeepMind2023-0755BVLA 鼻祖,PaLM-E 衍生,闭源
OpenVLAStanford2024-067B开源 VLA 标杆,Llama2 基底
π0 (Pi-Zero)Physical Intelligence2024-10~3B商业闭源,Flow Matching 头
OctoUC Berkeley2024-0593M-1.3B模块化 Transformer,可插拔
RynnVLA-002阿里达摩院2025-117B开源 SOTA,统一 VLA + World Model

关键差异点

维度OpenVLAπ0RynnVLA-002
动作头离散 tokenFlow Matching离散 + 连续双路
多视角单相机单相机第三人称 + 腕部
本体状态
世界模型
开源
LIBERO 成绩~84%~94%97.4%

三、第二梯队:感官扩展派(拼输入)

主流 VLA 都只吃 RGB+语言,但真实世界还有很多 RGB 看不见的信号。这一派专攻"加感官"。

触觉 VLA:TLA(中科院 + 三星)

  • arXiv 2503.08548| 2025-03
  • 把触觉图像(GelSight 类)作为独立模态接入 Qwen2-VL
  • 24k 触觉-动作-指令数据集
  • 关键证明:未见过物体形状的泛化任务上,TLA 比 Diffusion Policy 高 40%+
  • → 详见 yimu-research/summaries/01-TLA

多传感器 VLA:OmniVLA(Microsoft Research)

  • arXiv 2511.01210| 2025-11
  • 加红外/声学/毫米波雷达,**全部转成"伪图像"**叠加在 RGB 上
  • RGB-only 25% → OmniVLA 84% 成功率(找冷饮/找盒子里东西/找响铃手机)
  • → 详见 yimu-research/summaries/05-OmniVLA

异构传感器接入:Beyond Sight

  • arXiv 2501.04693| 2025-01
  • 核心思路:用语言作为"通用转接头",传感器 → 语言描述 → 现成 VLA
  • 数据需求降低 10-100 倍(5k 条 vs 100k+)
  • 战略价值:传感器厂商不用绑定某个 VLA,做"USB 标准"
  • → 详见 yimu-research/summaries/03-BeyondSight

四、第三梯队:执行层专精派(拼输出)

灵巧手内操作:FBI

  • arXiv 2508.14441| 2025-08
  • 专攻问题:物体在手里翻转、换握、传递
  • 核心创新:Shortcut Policy——触觉信号"短路"直连动作,跳过视觉编码(触觉 ms 级响应 vs 视觉 100ms 级)
  • 视触觉融合 > 纯视觉 > 纯触觉
  • → 详见 yimu-research/summaries/02-FBI

Diffusion Policy 系(非 VLA 但相关)

  • 用扩散模型生成动作序列,被很多 VLA 借鉴为动作头
  • π0 的 Flow Matching 是其轻量化版
  • 优势:动作平滑;劣势:推理慢

五、数据生产派(拼训练弹药)

Few-shot Sim2Real

  • arXiv 2503.01301| 2025-03
  • 力反馈遥操作 + 高保真渲染= 真实数据需求降低 50 倍
  • 50-100 条真实数据微调 ≈ 5000+ 条纯真实数据训练
  • 战略价值:把"采集机器人数据"做成生意(NVIDIA Isaac + Tesla 数据中心范式)
  • → 详见 yimu-research/summaries/04-FewShotSim2Real

Open-X-Embodiment(DeepMind)

  • 2023 年 22 家机构联合,1M+ 轨迹,22 种机器人本体
  • 行业最大公开数据集,OpenVLA 的基底

六、中国玩家速览

公司定位拳头产品路线
阿里达摩院开源派RynnVLA-002, RynnRCP, RynnEC全栈开源,技术品牌
银河通用VLA 主干派GraspVLA训自己的通用大脑
自变量全栈派自研 VLA + 整机模型+硬件一体
千寻智能全栈派自研 VLA + 双足机器人对标 Figure
帕西尼触觉感知派多模态触觉传感器卡感知层入口
一目科技触觉+灵巧手SENTRA + DEXTRA走 Beyond Sight 路线

七、五维评估矩阵(选型参考)

通用性 精度 开源 硬件依赖 商用成熟度 RT-2 ★★★ ★★★ ❌ 高 中 OpenVLA ★★★ ★★ ✅ 中 中 π0 ★★★ ★★★★ ❌ 低 高 RynnVLA-002 ★★★ ★★★★ ✅ 中 中 TLA ★ ★★★★ 部分 高(触觉) 低 OmniVLA ★★ ★★★★ 未知 高(多传感器)低

选型建议

  • 想跑通 demo 快速验证 → OpenVLA
  • 商用要稳定 → π0(如果能拿到)
  • 想魔改/做研究 →RynnVLA-002
  • 做接触密集型任务 → TLA + 触觉硬件
  • 做 RGB 看不见的场景 → OmniVLA 思路

八、三大技术分歧(行业未达成共识)

分歧 1:动作表示——离散 vs 连续 vs Diffusion

  • 详见06-action-representation.md

分歧 2:是否需要世界模型

  • 派别 A(RynnVLA-002):要,能做规划+做数据增强
  • 派别 B(OpenVLA/π0):不要,VLA 直接够用,World Model 是负担

分歧 3:感官接入方案——重训 vs 翻译

  • 重训派:每加新传感器训新 VLA(OmniVLA 部分场景)
  • 翻译派:传感器 → 语言/伪图像 → 现成 VLA(Beyond Sight、OmniVLA 主体)

九、2026 趋势预判

  1. 开源 VLA 追上闭源:RynnVLA-002 已经触摸 π0 性能上限
  2. 多传感器融合是必经之路:OmniVLA 的 84% vs 25% 太刺激
  3. 数据飞轮成为护城河:训练算法趋同,谁有数据谁赢
  4. VLA + World Model 统一是方向:单纯 VLA 解释性差,加 World Model 可做"心算"
  5. Sim2Real 突破是商业化拐点:仿真数据可用 → 边际成本崩塌

十、参考资料

  • OpenVLA
  • Physical Intelligence π0
  • Octo
  • RT-2
  • RynnVLA-002

v1.0 | 2026-05-13 首次建档

http://www.jsqmd.com/news/833650/

相关文章:

  • roop-unleashed:零训练实现专业级AI换脸的终极指南
  • 终极指南:如何用JX3Toy实现剑网3全职业PVE自动化
  • 跟着团子学SAP FICO:完工合同法(KKA2)实战解析——从项目启动到财务关闭的全周期账务透视
  • ElevenLabs男声真实场景交付标准(含ASR识别率≥98.3%、唇形同步误差≤42ms、情感一致性评分≥4.6/5.0)
  • 排名靠前的专利无效纠纷律师事务所口碑如何? - mypinpai
  • 3个高效方法:免费获取百度网盘高速下载直链的完整指南
  • Sketchfab数据提取终极指南:打破在线3D模型下载壁垒的完整解决方案
  • Git 分支管理规范有哪些最佳实践?
  • UEFITool终极指南:3步掌握UEFI固件解析与编辑
  • Aurora框架解析:一体化高性能云原生开发平台的设计与实践
  • Windows右键菜单终极管理:ContextMenuManager完全指南
  • 3步快速上手:PotPlayer百度翻译插件实现视频字幕实时翻译
  • 舒缓修护面霜品牌有哪些?黛夫诺是不错选择 - mypinpai
  • 量子退火在组合优化中的应用与性能分析
  • 怎样免费让老Mac重获新生:OpenCore Legacy Patcher专业教程
  • 【限时解禁】Midjourney Mud印相暗箱协议文档(v6.0.2内部白皮书节选):含17个未公开材质token、3类废弃prompt陷阱及官方调试日志解读
  • 量子奇异值变换与Trotter化技术的创新应用
  • 隔音工程高效厂家推荐,地阳之声, - mypinpai
  • 碧蓝航线自动化脚本终极指南:如何用Alas实现7x24小时全自动游戏管理
  • 品质异常反复?吃透QRQC底层逻辑,避开3大落地坑,快速止损不内耗
  • 高并发场景下 Redis 存储 JWT 黑名单如何优化鉴权性能?
  • All in Token,三个运营商建Token工厂,中国移动跟进Token经营 三大运营商争夺AI阵地
  • Token工厂:从“卖流量”到“卖Token”:中国移动砸百亿建Token生态,三大运营商的AI战争升级,阿里,百度,华为,字节跟进
  • Split APKs Installer:Android拆分应用安装的终极解决方案
  • Steam Achievement Manager完整指南:快速解决游戏成就难题的终极工具
  • ElevenLabs泰文语音生成避坑清单:97.3%开发者忽略的3大音素对齐陷阱及修复方案
  • 并行LLM推理技术:Hogwild! Inference原理与应用
  • 2026年口碑好的工程门加工厂盘点,说说工程门制造商哪家好 - mypinpai
  • 如何让Windows任务栏图标居中:TaskbarX美化工具完全指南
  • 系统门窗行业豆包推广,价格与服务解析 - mypinpai