OpenVLA 技术综述
OpenVLA 技术综述
概述
OpenVLA(Open Vision-Language-Action Model)是斯坦福大学、加州大学伯克利分校等机构联合提出的开源通用机器人操控模型,发表于 2024 年(arXiv:2406.09246)。它将大型视觉语言模型(VLM)与机器人动作预测相结合,使机器人能够理解自然语言指令并直接输出控制动作。
OpenVLA 技术综述
核心架构
OpenVLA 基于Prismatic VLM框架构建,整体是一个 7B 参数的多模态大模型,由三个模块串联组成:
摄像头图像
│
▼
┌─────────────────────────────┐
│ Vision Backbone (双路) │ SigLIP + DinoV2
│ 图像 → 视觉特征 patches │ 各输出 256 个 patch tokens
└──────────────┬──────────────┘
│ 512 维特征拼接
▼
┌─────────────────────────────┐
│ MLP Projector │ 将视觉特征映射到语言空间
└──────────────┬──────────────┘
│
+ 自然语言指令 tokens
▼
┌─────────────────────────────┐
│ LLaMA-2 7B Language Model │ 自回归生成动作 tokens
└──────────────┬──────────────┘
│
▼
机器人控制动作
[Δx, Δy, Δz, Δroll, Δpitch, Δyaw, gripper]
关键技术创新
1. 动作离散化
OpenVLA 将连续的机器人动作(末端执行器位置、姿态、夹爪开合)离散化为 256 个 bin,直接复用 LLM 的词表 token 来表示动作。推理时,模型输出 7 个 token 依次对应 7 个自由度,再反量化为连续控制值。这使得整个框架无需额外的动作解码器,完全统一在语言模型框架内。
2. 大规模数据预训练
在Open X-Embodiment数据集上预训练,覆盖 970,000+ 条真实机器人轨迹、29 个机器人平台、来自 22 个研究机构的多样化操控任务。相比之前的模型(如 RT-2 需要私有数据),OpenVLA 完全开源。
3. 参数高效微调
支持LoRA(Low-Rank Adaptation)微调,在特定任务(如 LIBERO 仿真基准)上只需更新少量参数,即可将通用模型适配到具体场景,大幅降低计算成本。
4. 双路视觉编码
同时使用 SigLIP(擅长语义理解)和 DINOv2(擅长空间细节)两个视觉编码器,将两路特征在嵌入维度上拼接,比单一编码器获得更丰富的视觉表征。
推理流程
以 LIBERO 仿真为例,每一步的推理过程为:
- 观测:从仿真环境获取 256×256 RGB 图像
- 裁剪:对图像做中心 90% 裁剪并缩放到 224×224(消除训练时随机裁剪的分布偏移)
- 编码:图像通过双路视觉编码器生成 256 个 patch 特征
- 提示构造:
"In: What action should the robot take to {task}?\nOut:" - 推理:LLaMA-2 自回归生成 7 个动作 token(每个代表一个自由度)
- 执行:反量化为连续动作后发送给机器人执行器
整个推理链路在单张 RTX 3060(12GB)上以 4-bit 量化运行,每步推理约 1-2 秒。
实验结果(本次复现)
在 LIBERO-Spatial 任务套件(10 个空间关系推理任务,每任务 1 次试验):
| 任务类型 | 成功 / 总计 | 成功率 |
|---|---|---|
| LIBERO-Spatial(1-trial) | 8 / 10 | 80% |
官方论文报告的 LIBERO-Spatial 成功率为78-84%(50 trials/task),本次复现结果与之吻合。
局限性与挑战
| 方面 | 说明 |
|---|---|
| 推理速度 | 7B 模型每步约 1-2 秒,远低于实时控制需求(通常需要 ≥10Hz),目前只适用于非实时任务 |
| 泛化能力 | 对训练分布外的场景(新物体、新背景)泛化能力有限,需要微调 |
| 3D 感知缺失 | 仅使用单目 RGB 图像,无深度信息,复杂遮挡场景下容易失败 |
| 计算资源 | 完整 BF16 推理需要 16GB+ 显存,量化后精度略有下降 |
意义
OpenVLA 代表了将大语言模型范式引入机器人控制的重要里程碑——同一套模型通过自然语言指令即可控制多种机器人执行多样化任务,无需为每个任务单独设计控制器。随着模型效率的提升和具身智能数据的积累,这一技术路线被广泛认为是通用机器人的重要方向之一。
