当前位置: 首页 > news >正文

【论文阅读】Being-H0.5:规模化以人为中心的机器人学习以实现跨具身化泛化

快速了解部分

基础信息(英文):

1.题目: Being-H0.5: Scaling Human-Centric Robot Learning for Cross-Embodiment Generalization
2.时间: 2026.01
3.机构: BeingBeyond Team
4.3个英文关键词: Vision-Language-Action (VLA), Human-Centric Learning, Cross-Embodiment Generalization

1句话通俗总结本文干了什么事情

本文提出了一种名为 Being-H0.5 的机器人模型,通过将人类动作作为通用模板,让不同形态的机器人(如机械臂、人形机器人)能共享学习成果,从而实现跨形态的技能泛化和实际部署。

研究痛点:现有研究不足 / 要解决的具体问题

现有视觉-语言-动作(VLA)模型通常是针对特定机器人硬件训练的“单语种”专家,难以在不同形态(如从机械臂换到人形手)的机器人之间迁移;同时,机器人数据稀缺且碎片化,缺乏一种通用的“物理语言”来统一不同机器人的动作空间。

核心方法:关键技术、模型或研究设计(简要)

提出了UniHand-2.0数据集和Being-H0.5模型。核心是将人类和机器人的动作映射到一个统一的动作空间(Unified Action Space),采用混合流(Mixture of Flow)架构,并引入流形保持门控(MPG)和通用异步分块(UAC)技术以适应不同硬件的延迟和控制差异。

深入了解部分

作者想要表达什么

作者认为人类的交互痕迹可以作为物理交互的通用“母语”。通过以人为中心的学习范式,利用大规模的人类视频数据作为物理先验,可以解决机器人数据稀缺问题,并打破不同机器人形态之间的壁垒,实现通用的具身智能。

相比前人创新在哪里

  1. 统一动作空间:不同于以往为每种机器人单独设置动作头,本文将人类手部动作(MANO模型)与机器人控制映射到同一个语义对齐的向量空间。
  2. 大规模异构数据:构建了包含3.5万小时数据(含1.6万小时人类视频)的 UniHand-2.0 数据集,覆盖30种机器人形态。
  3. 部署稳定性:提出了 MPG 和 UAC 技术,解决了在真实世界中不同机器人硬件延迟和感知漂移导致的控制不稳定问题。

解决方法/算法的通俗解释

想象一个能教所有类型机器人(无论是两只手的、一只手的,还是人形的)的“通用老师”。

  1. 通用语言:它把所有机器人的动作和人类的动作都翻译成一种“通用语言”(统一动作空间)。
  2. 混合专家:模型内部像一个专家组,有的专家专门负责通用的物理常识(如抓取、移动),有的专家专门负责特定机器人的特殊动作(混合流架构)。
  3. 抗干扰:当传感器信号不好或网络有延迟时,它能自动调整,保证机器人动作不卡顿、不乱动(流形保持门控和异步分块)。

解决方法的具体做法

  1. 数据构建:收集大规模的人类第一视角视频(Ego4D等),利用算法提取手部姿态;结合30种机器人的操作数据。
  2. 模型架构:采用 Mixture-of-Transformers (MoT) 设计,分为视觉语言理解专家和动作生成专家,共享注意力机制。
  3. 训练策略
    • 统一序列建模:将视觉、文本、状态、动作统一成一个序列进行训练。
    • 混合预测:同时预测连续的动作流和离散的动作 token。
  4. 后训练与部署:使用 MPG 在感知不确定时回退到可靠先验;使用 UAC 根据硬件延迟动态调整动作生成。

基于前人的哪些方法

  1. Being-H0:本文的前代模型,确立了以人为中心的学习范式。
  2. Flow Matching (流匹配):用于生成连续动作的扩散模型技术(如 π0 模型)。
  3. Mixture-of-Experts (MoE):混合专家架构,用于扩展模型容量。
  4. MANO 模型:用于表征人类手部姿态的参数化模型。

实验设置、数据、评估方式、结论

  • 数据:UniHand-2.0,包含 35,000+ 小时数据(16k人类,14k机器人,5k图文),覆盖30种机器人。
  • 实验平台:5种真实机器人(PND Adam-U, Franka+Inspire, Unitree G1, BeingBeyond D1, LeRobot SO-101)和模拟环境(LIBERO, RoboCasa)。
  • 评估方式:任务成功率(Success Rate)。
  • 结论
    • 在 LIBERO 模拟 benchmark 上达到98.9%的成功率(SoTA)。
    • 在 RoboCasa(24个复杂家务任务)上达到53.9%的成功率。
    • 实现了跨形态的零样本迁移(Zero-Shot Transfer),即在没有特定机器人数据的情况下,模型也能在新形态机器人上执行任务。

提到的同类工作

  • Open X-Embodiment (OXE):大规模机器人数据集集合。
  • RT-1 / RT-2:Google 的 Robotics Transformer 模型。
  • π0 (pi0):一种基于扩散模型的 VLA 方法。
  • GR00T-N1:Nvidia 提出的具身基础模型。
  • AgiBot World:另一个大规模机器人操作数据集。

和本文相关性最高的3个文献

  1. Being-h0: vision-language-action pretraining from large-scale human videos(Being-H0 的前作,本文的直接基础)
  2. πo: A vision-language-action model with open-world generalization(主流 VLA 方法,本文对比的重要基准)
  3. Open x-embodiment: Robotic learning datasets and rt-x models(最大的开源机器人数据集,本文数据的重要组成部分和对比对象)

我的

  1. 利用人类数据训练了一个VLA。
  2. 如何解决数据Gap的:MANO识别手,统一到一个空间里,然后用路由机制,一个foundation学习通用规律,多个小专家对接不同实体。
http://www.jsqmd.com/news/334041/

相关文章:

  • <span class=“js_title_inner“>自动驾驶之心春节活动来啦(2.1-2.23)</span>
  • V20 Update 8 版本预览演示现场
  • 基于Spring Boot的农产品直卖平台的设计与实现
  • CAN总线开发极简之道:从零到部署的全程护航
  • CF2167D 学习笔记
  • MATLAB环境下基于数据驱动与协方差驱动的随机子空间结构模态参数识别方法
  • 【重磅】有实力的深圳小红书广告代理口碑排行榜单 - 服务品牌热点
  • 【重磅】最好的深圳小红书广告代理推荐排行榜 - 服务品牌热点
  • java-springboot基于java的校运动会信息管理系统 SpringBoot高校田径运动会综合运营平台 Java工艺栈校园体育赛事智能编排与成绩统计系统计算机毕业设计
  • 【1.总结汉诺塔问题】【递归的数学定义,递归函数的构建框架】
  • HTTP状态码大全:从200到504,每个码代表什么?
  • 2026 无锡本地生活代运营榜单出炉!榜首实力断层领先 - 野榜数据排行
  • 单人电饭锅煮**方便面**/**大米饭** 精准时间
  • macOS Framework 使用指南(面向 Linux 开发者)以火山引擎实时音视频 SDK 为例 - 教程
  • CF2167C 学习笔记
  • <span class=“js_title_inner“>融资30亿后,曦望发布推理GPU芯片S3 从拼参数到算清账</span>
  • <span class=“js_title_inner“>聚焦端到端的公司和高校,越来越多了......</span>
  • 无酱方便面VS米饭
  • <span class=“js_title_inner“>端到端VLA壁垒,被打下来了......</span>
  • <span class=“js_title_inner“>专访王湛:从百度创始元老到曦望联席CEO</span>
  • 决策与增长:2026年GEO源头厂家的终极测评——为何摘星AI连续登顶? - 2026年企业推荐榜
  • <span class=“js_title_inner“>SegGISv3 添加后处理功能,视屏教程</span>
  • 短视频创作变现从 0 到 1:新手也能接住的实用指南
  • 18650电芯全自动点焊机:提升移动电源生产效能的关键设备
  • 【重磅】评价高的深圳小红书广告代理品牌 - 服务品牌热点
  • 红客是什么?红客需要传承!零基础入门到精通,看这篇就够了!赶紧收藏!
  • 网络划分与系统安全
  • 2026年适合办公室吃的零食品牌排行前十、挑选指南及选购建议,送给热爱生活的你! - Top品牌推荐
  • 2025CRM品牌排行榜:五大厂商系统业务流程闭环能力深度对比
  • 2026年了,你还在用传统滚动监听做懒加载?试试这种现代方案