当前位置：首页 > news >正文

LIBERO介绍

news 2026/6/9 16:51:58

什么是 LIBERO？

LIBERO 是一个专门为具身智能和机器人操作设计的仿真基准测试平台（Benchmark）。它建立在 MuJoCo 物理引擎之上，为研究人员提供了一个高度标准化的虚拟环境。

OpenVLA是一个极其聪明但没有实体的"赛博大脑"，那么LIBERO 就是给这个大脑提供身体、任务（例如：抓取碗放到盘子里）和虚拟世界的仿真平台

在底层的技术栈上，它是这样构成的：

MuJoCo (物理引擎)：最底层的物理法则。它负责计算重力、摩擦力、机械臂关节的碰撞和动力学。
robosuite (机器人框架)：建立在 MuJoCo 之上，专门为机械臂（如 Franka, Panda）提供标准化的 Python API 接口。
LIBERO (任务套件)：建立在 robosuite 之上。它精心设计了 130 个不同的桌面操作任务，并录制了极其高质量的人类专家遥控演示数据（这就是你之前用snapshot_download下载的 15GB 数据）。

LIBERO 的核心特色：它把任务分成了四大类：

Spatial (空间)：同一种物品，放在不同的位置（考查模型的空间方位感知）。
Object (物体)：同样的动作，操作不同的物体（考查模型的物体识别）。
Goal (目标)：同样的物体，执行不同的指令（比如把碗推向左边 vs 推向右边）。
10-task / 90-task：考查模型连续学习几十种任务会不会“灾难性遗忘”。

OpenVLA 与 LIBERO 的终极闭环控制流

运行评估脚本后， OpenVLA 和 LIBERO 会形成一个频率为 10Hz（每秒 10 次）的闭环控制系统。

这个10Hz 是由训练数据集的采样频率和 Llama-2 7B 自回归的推理速度决定的
LIBERO 有物理时钟和控制时钟两个时钟系统
控制时钟去接收 OpenVLA 下发的动作操作目标
物理时钟去执行这个动作操作目标
这个闭环系统分为 4 个步骤：
查看环境和给出命令

LIBERO 环境（env）初始化后，会通过虚拟摄像机渲染出当前桌面的 RGB 图像（通常是 256x256 分辨率）。同时，环境会给出一个字符串指令，例如"pick up the black bowl"。

OpenVLA推理

OpenVLA 接收图像和指令，按照我们在openvla.py和prismatic.py中分析过的逻辑：

图像被切成 Patch 变成 Embeddings。
结合文本提示词送入 LLaMa-2 大脑。
模型自回归地吐出 7 个离散的词汇（Tokens），例如[<action_128>, <action_135>, <action_128>, ...]。

翻译和物理映射

这 7 个 Token 被翻译到 [-1 , 1]之间的归一化浮点数（比如[0.0, 0.05, 0.0, ...]）。
接着，利用dataset_statistics.json中记录的 LIBERO 环境专用极值（action_high和action_low），将这些比例放大为真实的物理尺度（比如 $X$ 轴移动 $0.015$ 米）。

OpenVLA -> LIBERO 执行

最终生成的 7 维浮点数数组action = [dx, dy, dz, droll, dpitch, dyaw, gripper]被送回给 LIBERO。 LIBERO 底层的 MuJoCo 物理引擎接收到这 7 个微小的位移量，驱动虚拟的 Franka 机械臂移动几毫米。然后环境渲染出新的图像，进入下一个循环！

查看全文

http://www.jsqmd.com/news/605453/