当前位置: 首页 > news >正文

【论文阅读】RL Token: Bootstrapping Online RL with Vision-Language-Action Models

快速了解部分

基础信息(英文):

  1. 题目: RL Token: Bootstrapping Online RL with Vision-Language-Action Models
  2. 时间: 2026.03
  3. 机构: Physical Intelligence (PI)
  4. 3个英文关键词: Vision-Language-Action (VLA), Online Reinforcement Learning, Robotic Manipulation
  5. 论文地址

1句话通俗总结本文干了什么事情

在大型视觉-语言-动作模型(VLA)里插一个专门的“RL Token”来提取特征,让机器人只需在线练习几小时就能掌握拧螺丝、插线等极高难度的微操。

研究痛点:现有研究不足 / 要解决的具体问题

大模型(VLA)虽然懂得多,但“手笨”。它们在处理宏观任务时很强,但在需要毫米级精度的任务(如精准插入、拧细小螺丝)中表现极差。而直接微调整个大模型的强化学习(RL)不仅极慢,且极其耗费算力。

核心方法:关键技术、模型或研究设计(简要)

在冻结的 VLA 模型中加入一个RL Token,它负责把大模型内部深层的视觉和语义理解压缩成一个紧凑的状态表示。基于这个 Token,训练一个极小的强化学习网络(Actor-Critic),仅对动作进行“微调校准”,而不必动大模型的“大脑”。


深入了解部分

作者想要表达什么

解决高精度机器人操作不需要重新训练大模型,也不需要海量数据。通过“表示解耦”,利用大模型已有的感知能力,配合轻量级的在线强化学习,可以快速攻克机器人领域最难的“最后一毫米”问题。

相比前人创新在哪里

  1. 高效架构:首创 RL Token 机制,将复杂感知(大模型负责)与精细动作校准(小模型负责)分离。
  2. 极速训练:将原本需要数周的在线 RL 训练缩短至几小时(通常只需 1-3 小时真实世界练习)。
  3. 精度飞跃:首次在不损失大模型泛化能力的前提下,达到了超越人类遥操作的执行速度。

解决方法/算法的通俗解释

就像给一个眼光犀利但动作粗鲁的“巨型教授”(VLA)装了一个灵敏的“电子义肢”(RL网络)。教授通过 RL Token 把看到的细节告诉义肢,义肢在实际操作中不断试错、总结经验。由于义肢很轻量,它学得飞快,很快就能比人类还精准。

解决方法的具体做法

  1. 插入 Token:在 VLA 的 Transformer 序列中加入一个可学习的向量(RL Token)。
  2. 特征对齐:先通过预训练让这个 Token 学会提取 VLA 内部对任务最关键的信息。
  3. 在线 RL:保持 VLA 权重不动,将 RL Token 的输出作为输入喂给一个小型的 MLP策略。
  4. 正则化约束:在训练中加入正则化项,确保 RL 产生的动作不会偏离大模型的原始合理建议太远。

基于前人的哪些方法

  • VLA 基座:基于 OpenVLA 或 Recap 等大规模预训练VLA模型。
  • 在线强化学习:采用了 sample-efficient 的在线 RL 算法(如 PPO 变体)。
  • 瓶颈表示(Bottlenecking):借鉴了特征压缩与表示学习的思想。

实验设置、数据、评估方式、结论

  • 设置:在拧螺丝、系扎带、插以太网线、插充电器等高精操作中测试。
  • 数据:采集数小时的现场真实机器人互动数据。
  • 结论:在关键精度阶段,RLT 的执行速度比基础模型快 3 倍;拧螺丝成功率从 20% 提升至 65%;其整体操作效率和速度中位数显著优于人类遥操作水平。

提到的同类工作

  • Recap:PI 之前的长程任务规划工作。
  • RT-2 / OpenVLA:目前主流的视觉语言动作基础模型。
  • IQL / CQL:作为对比的离线强化学习基准方法。

和本文相关性最高的3个文献

  1. OpenVLA: An Open-Source Vision-Language-Action Model
  2. Recap: Recursive Action Planning for Long-Horizon Robot Tasks
  3. RT-2: Vision-Language-Action Models Transfer Knowledge from Web to Robots

我的

提出了RL token。在线RL的方式。
两阶段训练。
第一阶段,拿一个pretrain vla,然后拿vla输出的image embedding信息,训练一个autoencoder,通过自监督方式训练得到RL token表示。
第二阶段,冻住vla、enc和dec,用rl训一个actor critic。

http://www.jsqmd.com/news/530838/

相关文章:

  • 2026市政排水改造球墨铸铁排水管实测评测:球墨铸铁篦子/球墨铸铁雨水篦子/球墨铸铁三通/球墨铸铁井盖/球墨铸铁弯头/选择指南 - 优质品牌商家
  • 使用Keil5开发嵌入式TranslateGemma-12B-it应用的入门指南
  • 产品需求预测避坑指南:Prophet vs 机器学习模型的选择
  • 突破边界的系统携带方案:Portable-VirtualBox完全指南
  • 企业级翻译系统TranslateGemma:部署与使用全解析
  • Zotero PDF Translate终极指南:3步解锁20+翻译引擎的学术神器
  • 智能体管理页面设计文档
  • 啊飒飒啊飒飒啊飒飒
  • fjvihcicipcjacv
  • React 图片放大镜组件使用文档
  • curl-for-win实战指南:构建可复现的跨平台命令行网络工具
  • 如何通过并行测试将ChezScheme测试时间从53分钟缩短到8分钟
  • 密码管理与数据安全:使用ChromePass高效管理浏览器密码的完整指南
  • 幻兽帕鲁存档高效迁移全攻略:从问题诊断到跨平台解决方案
  • 2026年正规眉眼唇纹培训TOP5品牌推荐:仿真眉、野生眉、羽雕眉、仿真眉学校、光影雾眉、内眼线学校、半永久培训学校选择指南 - 优质品牌商家
  • 不只是装软件:用VCC创建你的第一个VRChat Avatar项目,从工程设置到SDK导入
  • 团队协作必备:用pip freeze和requirements.txt搞定Python项目环境复现
  • 衡水铭畅橡塑:钢丝胶管、高压橡胶油管、高压橡胶管、高压橡胶管软管、高压橡胶软管、高压水管、高压油管、高压管道、高压胶管总成选择指南 - 优质品牌商家
  • 推荐系统颠覆性突破:AAAI揭秘Agent推荐新逻辑(非常详细),从小白到大神,收藏这一篇就够了!
  • 永磁同步电机滑模观测SMO无位置传感器控制仿真模型【附参考文献及文档】 资料内容: (1)仿真...
  • win11+Ubuntu 22.04.5双系统安装
  • 基于Token机制的DeepSeek-OCR-2访问控制方案
  • 如何用Win11Debloat解决Windows 11的5大系统性能问题?
  • 计算机视觉、YOLO算法模型训练、无人机监测人员密集自动识别
  • 告别Python依赖!C++手把手教你实现大整数加减乘除(附完整代码与避坑指南)
  • 乙巳马年·皇城大门春联生成终端W持续集成与交付(CI/CD)流水线搭建
  • 龙芯+浪潮,中国云计算要“去x86“了!
  • NetGen:高效精准的3D四面体网格生成器技术指南
  • STEP3-VL-10B轻量级方案:在MMMU基准测试中得分78.11,STEM推理能力突出
  • ArrayList 扩容机制: