当前位置：首页 > news >正文

【论文自动阅读】Fast-ThinkAct: Efficient Vision-Language-Action Reasoning via Verbalizable Latent Planning

news 2026/3/27 6:00:43

快速了解部分

基础信息（英文）：

1.题目: Fast-ThinkAct: Efficient Vision-Language-Action Reasoning via Verbalizable Latent Planning
2.时间: 2026.01
3.机构: NVIDIA
4.3个英文关键词: VLA, Fast Reasoning, Latent Planning

1句话通俗总结本文干了什么事情

本文提出了一种名为 Fast-ThinkAct 的框架，通过将复杂的思维过程压缩成紧凑的“潜意识”向量，让机器人既能像人类一样思考规划，又能像本能反应一样快速执行动作。

研究痛点：现有研究不足 / 要解决的具体问题

现有的具备推理能力的机器人模型（Reasoning VLA）虽然智能，但因为需要生成冗长的文字思考过程（Chain-of-Thought），导致决策速度极慢（延迟高），无法满足机器人实时控制（如 1-15Hz）的需求，存在安全隐患。

核心方法：关键技术、模型或研究设计（简要）

利用“老师-学生”机制，让“学生”模型（Fast-ThinkAct）模仿“老师”模型的高质量思维逻辑，但不生成文字，而是生成紧凑的连续向量（Latent Tokens）作为内部计划，从而大幅降低计算延迟。

深入了解部分

相比前人创新在哪里

前人工作（如 ThinkAct）依赖生成数百个文字 Token 来推理，速度慢。本文的创新点在于Verbalizable latent planning/可言说的潜意识规划：模型在内部用极短的向量（仅需 6 个 Token）完成思考和视觉路径规划，既保留了推理能力，又将推理延迟降低了 89.3%。

解决方法/算法的通俗解释

想象一下，老司机（老师模型）在开车时会喋喋不休地解释每一步操作，而新手司机（学生模型）通过学习，把这些长篇大论内化成了瞬间的直觉和预判。Fast-ThinkAct 就是让机器人把“长篇思考”内化为“瞬间直觉”，但这个直觉依然保持了逻辑性，可以被翻译回人类语言来检查。

解决方法的具体做法

老师模型：使用强化学习训练一个生成文字思维链的 VLA 模型，作为“老师”。
潜意识蒸馏：训练“学生”模型，目标是让它生成的内部向量（Latent Tokens）经过一个“翻译器”（Verbalizer）后，能还原出老师模型的高质量思考内容。
视觉对齐：强制学生模型的内部向量与老师模型的视觉规划保持一致。
并行预测：学生模型利用这些向量并行预测未来的动作轨迹，直接指导机械臂行动。

基于前人的哪些方法

本文基于ThinkAct的推理框架，并结合了GRPO进行老师的训练，同时利用了Qwen2.5-VL作为基础模型架构。

实验设置、数据，评估方式、结论

数据：使用了 OXE 数据集、AIST 双臂数据集以及多个推理数据集（如 RoboVQA, EgoPlan）。
评估：在 LIBERO 和 SimplerEnv 等机器人操作基准上测试任务成功率，在 EgoPlan 等基准上测试推理能力，并对比推理延迟（毫秒）。
结论：Fast-ThinkAct 在保持甚至超越 ThinkAct 任务成功率（如 LIBERO 上达到 89.7%）的同时，推理速度提升了 9.3 倍，延迟降低了 89.3%。