当前位置：首页 > news >正文

【具身智能】VLA 赛道图谱（全景横评）

news 2026/7/17 12:25:50

研究日期: 2026-05-13
覆盖范围: 主流 VLA 模型 + 触觉/多传感器扩展 + 中国玩家
数据基础: 公开论文 + arXiv 5 篇精读 + RynnVLA-002 源码

一、什么是 VLA？

VLA = Vision-Language-Action：吃图像+文字指令，吐机器人动作的端到端模型。

它替代了什么：传统机器人的"感知模块 + 规划模块 + 控制模块"三层 pipeline，现在用一个大模型端到端搞定。

核心问题它解决了：泛化性。传统机器人换个杯子就要重新编程，VLA 模型见过 100 种杯子后，第 101 种也能拿。

二、第一梯队：通用 VLA 主干（拼基础）

模型	出品	时间	参数量	核心特点
RT-2	Google DeepMind	2023-07	55B	VLA 鼻祖，PaLM-E 衍生，闭源
OpenVLA	Stanford	2024-06	7B	开源 VLA 标杆，Llama2 基底
π0 (Pi-Zero)	Physical Intelligence	2024-10	~3B	商业闭源，Flow Matching 头
Octo	UC Berkeley	2024-05	93M-1.3B	模块化 Transformer，可插拔
RynnVLA-002	阿里达摩院	2025-11	7B	开源 SOTA，统一 VLA + World Model

关键差异点

维度	OpenVLA	π0	RynnVLA-002
动作头	离散 token	Flow Matching	离散 + 连续双路
多视角	单相机	单相机	第三人称 + 腕部
本体状态	❌	✅	✅
世界模型	❌	❌	✅
开源	✅	❌	✅
LIBERO 成绩	~84%	~94%	97.4%

三、第二梯队：感官扩展派（拼输入）

主流 VLA 都只吃 RGB+语言，但真实世界还有很多 RGB 看不见的信号。这一派专攻"加感官"。

触觉 VLA：TLA（中科院 + 三星）

arXiv 2503.08548| 2025-03
把触觉图像（GelSight 类）作为独立模态接入 Qwen2-VL
24k 触觉-动作-指令数据集
关键证明：未见过物体形状的泛化任务上，TLA 比 Diffusion Policy 高 40%+
→ 详见 yimu-research/summaries/01-TLA

多传感器 VLA：OmniVLA（Microsoft Research）

arXiv 2511.01210| 2025-11
加红外/声学/毫米波雷达，**全部转成"伪图像"**叠加在 RGB 上
RGB-only 25% → OmniVLA 84% 成功率（找冷饮/找盒子里东西/找响铃手机）
→ 详见 yimu-research/summaries/05-OmniVLA

异构传感器接入：Beyond Sight

arXiv 2501.04693| 2025-01
核心思路：用语言作为"通用转接头"，传感器 → 语言描述 → 现成 VLA
数据需求降低 10-100 倍（5k 条 vs 100k+）
战略价值：传感器厂商不用绑定某个 VLA，做"USB 标准"
→ 详见 yimu-research/summaries/03-BeyondSight

四、第三梯队：执行层专精派（拼输出）

灵巧手内操作：FBI

arXiv 2508.14441| 2025-08
专攻问题：物体在手里翻转、换握、传递
核心创新：Shortcut Policy——触觉信号"短路"直连动作，跳过视觉编码（触觉 ms 级响应 vs 视觉 100ms 级）
视触觉融合 > 纯视觉 > 纯触觉
→ 详见 yimu-research/summaries/02-FBI

Diffusion Policy 系（非 VLA 但相关）

用扩散模型生成动作序列，被很多 VLA 借鉴为动作头
π0 的 Flow Matching 是其轻量化版
优势：动作平滑；劣势：推理慢

五、数据生产派（拼训练弹药）

Few-shot Sim2Real

arXiv 2503.01301| 2025-03
力反馈遥操作 + 高保真渲染= 真实数据需求降低 50 倍
50-100 条真实数据微调 ≈ 5000+ 条纯真实数据训练
战略价值：把"采集机器人数据"做成生意（NVIDIA Isaac + Tesla 数据中心范式）
→ 详见 yimu-research/summaries/04-FewShotSim2Real

Open-X-Embodiment（DeepMind）

2023 年 22 家机构联合，1M+ 轨迹，22 种机器人本体
行业最大公开数据集，OpenVLA 的基底

六、中国玩家速览

公司	定位	拳头产品	路线
阿里达摩院	开源派	RynnVLA-002, RynnRCP, RynnEC	全栈开源，技术品牌
银河通用	VLA 主干派	GraspVLA	训自己的通用大脑
自变量	全栈派	自研 VLA + 整机	模型+硬件一体
千寻智能	全栈派	自研 VLA + 双足机器人	对标 Figure
帕西尼	触觉感知派	多模态触觉传感器	卡感知层入口
一目科技	触觉+灵巧手	SENTRA + DEXTRA	走 Beyond Sight 路线

七、五维评估矩阵（选型参考）

通用性 精度 开源 硬件依赖 商用成熟度 RT-2 ★★★ ★★★ ❌ 高 中 OpenVLA ★★★ ★★ ✅ 中 中 π0 ★★★ ★★★★ ❌ 低 高 RynnVLA-002 ★★★ ★★★★ ✅ 中 中 TLA ★ ★★★★ 部分 高（触觉） 低 OmniVLA ★★ ★★★★ 未知 高（多传感器）低

选型建议：