当前位置: 首页 > news >正文

【论文阅读】π0.5: a Vision-Language-Action Model with Open-World Generalization

【论文阅读】π0.5: a Vision-Language-Action Model with Open-World Generalization

  • 1 发表时间与团队
  • 2 问题背景和核心思路
  • 3 具体设计
    • 3.1 模型设计(分层推理链)
    • 3.2 数据设计
  • 4 实验
  • 5 结论

1 发表时间与团队

  • 发表时间:2025年4月22日。
  • 团队:Physical Intelligence(由机器人学大牛 Sergey Levine、Chelsea Finn、Karol Hausman 等人领导)。

2 问题背景和核心思路

  • 问题背景:现有的机器人模型(VLA)在受控实验室表现良好,但在复杂的真实家庭环境中面临泛化性差、无法处理长程任务(如 15 分钟的家务)以及无法理解复杂指令的挑战。

  • 核心思路:通过异构任务联合训练(Co-training),将互联网海量常识(Web Data)、跨本体机器人知识(Cross-Embodiment)与目标机器人的移动操作数据结合。通过层次化推理(感知→ \to规划→ \to执行)来实现“开箱即用”的泛化能力。

3 具体设计

3.1 模型设计(分层推理链)

模型在处理每一帧画面时,遵循一套严密的“思维链”预测顺序:

  • 感知层(Bounding Box):首先在画面中圈出相关物体。这利用了 Web 数据中学到的物体常识,为后续操作定位。

  • 规划层(Subtask Labels):预测当前的语义子任务(如“打开微波炉”)。这利用了手动标注的步进式指令知识。

  • 执行层(Action Expert):

    • 双轨道预测:模型同时预测离散 Token(用于对齐语义和加速训练)和连续动作流(通过 Flow Matching 实现)。
    • 冗余输出:同时预测关节角度末端执行器位姿。末端位姿用于跨机型泛化,关节角度用于直接、安全的物理执行。
    • 动作专家:在后训练阶段引入的专用权重,负责将高层指令转化为丝滑的物理轨迹。

3.2 数据设计

  • 离散化统一:所有数据(动作、坐标、文本、检测框)都被转化为 FAST Token,使机器人能像 LLM 处理文本一样处理动作。
    • 数据阶段化:预训练阶段:加入大量 CE(跨本体) 数据,让模型成为“杂家”,理解各种物体的物理交互。
    • 后训练阶段:去掉 CE 数据以减少噪音,专注目标机器人的 MM(移动操作) 数据。加入专家标注的 VI(口头指令),教模型如何“分步骤”拆解长任务。

4 实验

  • 真实世界评测(In-the-wild):大胆地在三个从未见过的私人家庭中进行测试,模型在无需微调的情况下,能持续执行 10-15 分钟的复杂任务。
  • 评估标准(Progress-based):不采用二元成功率,而是根据完成步骤的百分比打分,更客观地衡量模型在长程任务中的鲁棒性。
  • 代表性验证(Mock vs Real):证明了实验室模拟环境(Mock Env)的效果与真实环境(Real Env)具有强相关性,验证了实验结论的可靠性。
  • 环境规模效应:通过控制变量实验证明,即便数据量相同,训练时见过的房子越多(多样性高),模型的泛化能力越强,且 100 个环境仍未达到上限。

5 结论

π 0.5 \pi_{0.5}π0.5证明了:

  • 结构化推理(先找物体、再想步骤、后动手)是解决长程任务的最优解。
  • 异构联合训练能让机器人具备“物理常识”,实现跨场景的零样本泛化。
  • 分阶段训练策略(先泛化、后聚焦)是训练高性能机器人的有效路径。
http://www.jsqmd.com/news/264193/

相关文章:

  • 10年了啊
  • 智能代码重用推荐:提高开发效率
  • 苏州装修避坑指南:3家自有工人+施工规范宝藏公司揭秘 - 品牌测评鉴赏家
  • 这些降重服务商整合了AI智能改写技术,免费试用让用户获得高效的文本优化体验。
  • 十大降重平台均配备AI智能重写系统,免费试用帮助用户实现高效的文本优化目标。
  • CVE-2026-21440 AdonisJS 路径遍历漏洞分析与验证工具
  • 2026苏州装修公司前十强口碑榜|本土家居博主实测级推荐,装新家不踩坑! - 品牌测评鉴赏家
  • 51单片机智能扫地吸尘智能车机器人红外避障风扇95(设计源文件+万字报告+讲解)(支持资料、图片参考_相关定制)_文章底部可以扫码
  • AI模型与工具技术周报解析
  • 二分:二分查找、在排序数组中查找元素的第一个和最后一个位置、搜索插入位置、x 的平方根 - 实践
  • 极简风装修不踩坑!3家宝藏装修公司实测推荐,高级感拉满 - 品牌测评鉴赏家
  • 苏州二手房局部改造不踩坑!6家宝藏装修公司,老房焕新超省心 - 品牌测评鉴赏家
  • 2026毛坯房装修不迷路!这些品牌闭眼选 - 品牌测评鉴赏家
  • 【工具分享】--编写POC之Wavely的使用
  • day146—递归—验证二叉搜索树(LeetCode-98)
  • 微信小程序毕设项目推荐-基于springboot的保护濒危动物公益网站系统公益网站建设、动物保护系统、濒危物种网站【附源码+文档,调试定制服务】
  • 【毕业设计】基于python-CNN-pytorch深度学习训练识别T恤的颜色
  • 【ST表】洛谷 P3865 【模板】ST 表 RMQ 问题
  • HBase与Flink CDC:实时数据同步技术
  • 2026年诚信的西山区心理咨询,昆明心理咨询,南市区心理咨询公司行业优质名录 - 品牌鉴赏师
  • 学长亲荐10个AI论文网站,继续教育学生轻松搞定论文格式!
  • 2026苏州100平左右新房装修指南:高性价比公司全揭秘 - 品牌测评鉴赏家
  • 2026苏州二手房局部翻新大揭秘!这些公司你不能错过 - 品牌测评鉴赏家
  • 苏州装修公司口碑大揭秘!这几家名列前茅 - 品牌测评鉴赏家
  • 2024年9月GESP真题及题解(C++七级): 矩阵移动
  • 苏州装修公司口碑大揭秘!这几家名列前茅 - 品牌测评鉴赏家
  • Go 语言 GMP 调度模型深度解析 - 教程
  • 苏州装修性价比大揭秘!哪家公司才是真王者? - 品牌测评鉴赏家
  • HTML一键打包EXE工具2.2.0版本重磅更新 - 2026年最新版本稳定性大幅提升
  • 大数据环境下空间数据分析的最佳实践