当前位置：首页 > news >正文

【论文阅读】RL Token: Bootstrapping Online RL with Vision-Language-Action Models

news 2026/6/30 12:55:36

快速了解部分

基础信息（英文）：

题目: RL Token: Bootstrapping Online RL with Vision-Language-Action Models
时间: 2026.03
机构: Physical Intelligence (PI)
3个英文关键词: Vision-Language-Action (VLA), Online Reinforcement Learning, Robotic Manipulation
论文地址

1句话通俗总结本文干了什么事情

在大型视觉-语言-动作模型（VLA）里插一个专门的“RL Token”来提取特征，让机器人只需在线练习几小时就能掌握拧螺丝、插线等极高难度的微操。

研究痛点：现有研究不足 / 要解决的具体问题

大模型（VLA）虽然懂得多，但“手笨”。它们在处理宏观任务时很强，但在需要毫米级精度的任务（如精准插入、拧细小螺丝）中表现极差。而直接微调整个大模型的强化学习（RL）不仅极慢，且极其耗费算力。

核心方法：关键技术、模型或研究设计（简要）

在冻结的 VLA 模型中加入一个RL Token，它负责把大模型内部深层的视觉和语义理解压缩成一个紧凑的状态表示。基于这个 Token，训练一个极小的强化学习网络（Actor-Critic），仅对动作进行“微调校准”，而不必动大模型的“大脑”。

深入了解部分

作者想要表达什么

解决高精度机器人操作不需要重新训练大模型，也不需要海量数据。通过“表示解耦”，利用大模型已有的感知能力，配合轻量级的在线强化学习，可以快速攻克机器人领域最难的“最后一毫米”问题。

相比前人创新在哪里

高效架构：首创 RL Token 机制，将复杂感知（大模型负责）与精细动作校准（小模型负责）分离。
极速训练：将原本需要数周的在线 RL 训练缩短至几小时（通常只需 1-3 小时真实世界练习）。
精度飞跃：首次在不损失大模型泛化能力的前提下，达到了超越人类遥操作的执行速度。

解决方法/算法的通俗解释

就像给一个眼光犀利但动作粗鲁的“巨型教授”（VLA）装了一个灵敏的“电子义肢”（RL网络）。教授通过 RL Token 把看到的细节告诉义肢，义肢在实际操作中不断试错、总结经验。由于义肢很轻量，它学得飞快，很快就能比人类还精准。

解决方法的具体做法

插入 Token：在 VLA 的 Transformer 序列中加入一个可学习的向量（RL Token）。
特征对齐：先通过预训练让这个 Token 学会提取 VLA 内部对任务最关键的信息。
在线 RL：保持 VLA 权重不动，将 RL Token 的输出作为输入喂给一个小型的 MLP策略。
正则化约束：在训练中加入正则化项，确保 RL 产生的动作不会偏离大模型的原始合理建议太远。

基于前人的哪些方法

VLA 基座：基于 OpenVLA 或 Recap 等大规模预训练VLA模型。
在线强化学习：采用了 sample-efficient 的在线 RL 算法（如 PPO 变体）。
瓶颈表示（Bottlenecking）：借鉴了特征压缩与表示学习的思想。

实验设置、数据、评估方式、结论

设置：在拧螺丝、系扎带、插以太网线、插充电器等高精操作中测试。
数据：采集数小时的现场真实机器人互动数据。
结论：在关键精度阶段，RLT 的执行速度比基础模型快 3 倍；拧螺丝成功率从 20% 提升至 65%；其整体操作效率和速度中位数显著优于人类遥操作水平。

提到的同类工作

Recap：PI 之前的长程任务规划工作。
RT-2 / OpenVLA：目前主流的视觉语言动作基础模型。
IQL / CQL：作为对比的离线强化学习基准方法。

和本文相关性最高的3个文献

OpenVLA: An Open-Source Vision-Language-Action Model
Recap: Recursive Action Planning for Long-Horizon Robot Tasks
RT-2: Vision-Language-Action Models Transfer Knowledge from Web to Robots

我的

提出了RL token。在线RL的方式。
两阶段训练。
第一阶段，拿一个pretrain vla，然后拿vla输出的image embedding信息，训练一个autoencoder，通过自监督方式训练得到RL token表示。
第二阶段，冻住vla、enc和dec，用rl训一个actor critic。

查看全文

http://www.jsqmd.com/news/530838/