当前位置: 首页 > news >正文

英伟达推出EgoScale,利用以自我为中心的操作数据进行扩展

利用以自我为中心的数据进行扩展:英伟达推出的EgoScale 使用超过 20,000 小时的人类视频进行预训练,涵盖数千个独特的任务和环境。精确的骨骼手部追踪(图中以红色和蓝色显示)使模型能够提取并重新定位 21 个人体运动关键点,从而构建统一的机器人动作空间。

NVIDIA 的研究人员推出了 EgoScale,这是一个全新的人机迁移框架,它表明,提升机器人灵巧度的关键不在于更多的机器人数据,而在于更多的人类视频。该团队利用一个包含 20,854 小时人类以自我为中心的操作视频的大型数据集进行预训练,发现了一种“可预测的缩放规律”,即人类动作的预测与后续机器人操作的成功率直接相关。

由英伟达GEAR实验室主导的EgoScale项目,标志着传统机器人训练方式的重大突破。传统机器人训练通常依赖于昂贵且速度缓慢的远程操控。EgoScale则将人类视为地球上最具“可扩展性”的载体,利用人类的日常动作为机器构建基础运动模型。

推文译文

我们训练了一个拥有22自由度灵巧双手的类人机器人,使其能够组装模型车、操作注射器、整理扑克牌、折叠/卷起衬衫,所有这些技能主要通过超过2万小时的以人类为中心的视频学习而来,整个过程没有机器人参与。

人类是地球上最具可扩展性的具身模型。我们发现人类视频量与动作预测损失之间存在近乎完美的对数线性缩放规律(R² = 0.998),并且该损失能够直接预测真实机器人的成功率。

类人机器人将是最终目标,因为它们是与人类具身性差距最小、最实用的形态。不妨称之为机器人硬件的惨痛教训:运动学上的相似性使我们能够简单地将人类手指的运动重新映射到灵巧的机器人手关节上。无需学习嵌入,也无需复杂的迁移算法。相对腕部运动加上重新映射的22自由度手指动作构成了一个统一的动作空间,该空间能够从预训练一直延续到机器人执行。

我们的方案名为“EgoScale”:

  • 使用 2 万小时的人类视频预训练 GR00T N1.5,中期训练仅使用 4 小时(!)的 Sharpa 手机器人游戏数据。在 5 项高灵巧性任务中,性能比从零开始训练提升了 54%。

  • 最令人惊讶的结果:仅需一个远程操作演示即可学习一项前所未见的任务。我们的方案实现了极高的数据效率。

  • 虽然我们是在 22 自由度的手关节空间中进行预训练,但该策略可以迁移到具有 7 自由度三指手的 Unitree G1 上。性能比仅使用 G1 数据训练提升了 30% 以上。

实现机器人灵巧性的可扩展路径从来都不是增加机器人数量,而是我们自身。

EgoScale 的核心是一个比以往人机策略转移研究规模大 20 多倍的数据集。该数据集涵盖 9000 多个场景和 6000 多个任务,全面覆盖了现实世界中的各种操作——从组装盒子到处理精密电子设备。

研究人员发现了一种近乎完美的对数线性标度律人类数据量与模型验证损失之间的关系。随着数据规模的扩大,模型预测人类手腕和手部动作的能力单调提升,进而导致真实机器人性能的持续提高。

研究人员指出,“这种离线扩展行为能够很好地预测真实机器人的性能”,这表明大规模人类视频是具身智能的可预测监督来源。

EgoScale框架摒弃了复杂的迁移算法,转而采用简单直接的训练流程:预训练(人类数据):

  • 使用超过 20,000 小时的人类视频训练视觉-语言-动作 (VLA) 模型。为了弥合具身性差距,将人类手部动作重新定向到 22 自由度 (DoF) 的机器人手关节空间。

  • 训练中期(数据对齐):使用一个包含 54 小时人机“互动数据”的小型数据集,将模型“锚定”到机器人感知上。此阶段对于将人类衍生的表征转化为可执行的机器人控制至关重要。

  • 训练后(任务特定):针对特定的下游任务对策略进行微调。

与未经人工预训练的基线模型相比,该方法使平均成功率提高了54%。该模型成功掌握了包括卡片分类、拧开瓶盖,甚至使用注射器转移液体的多步骤操作等高灵巧性任务。

或许最引人注目的成果是单次任务适应能力的出现。借助 EgoScale 先验知识,机器人只需一次远程操作演示,就能学会一项全新的任务,例如叠衬衫。

这种效率表明,该模型不仅模仿动作,而且已经内化了“通用运动基元”。这与近期行业向生成式模拟和基础运动模型的转变相呼应,这些模型优先考虑“物理常识”而非僵化的、程序化的行为。

虽然该模型主要针对22自由度的Sharpa灵巧手进行训练,但学习到的表征却展现出惊人的灵活性。当将其迁移到使用截然不同的7自由度三指手的Unitree G1机器人时,基于人类预训练的策略仍然比仅使用G1数据训练的模型在成功率方面绝对提高了30% 。

自主灵巧操作演示:Galaxea R1 Pro 执行“卷衬衫”任务。该机器人使用 EgoScale 算法,协调两个 22 自由度 Sharpa 机械手,将一件可变形 T 恤折叠并卷成圆柱形,然后放入篮子中。

这种跨具身化的成功印证了机器人硬件领域的一个“惨痛教训”:随着机器人运动学上越来越接近人类,专门的“迁移”层的需求也就消失了。取而代之的是,人类提供的丰富运动数据可以作为通用的运动先验信息。

EgoScale 的发布正值一场旨在解决“机器人数据鸿沟”的竞赛愈演愈烈之际。当其他公司都在大规模收集高保真度的远程操作数据时,NVIDIA 则押注于物理交互的“暗物质”早已编码在数百万小时已被记录的人类活动中。

随着模型容量和人类数据量的持续增长,研究人员预计在长期规划和组合泛化方面将取得更大的进步。最终目标仍然是“物理图灵测试”——一个机器的优雅与人类的优雅无法区分的世界。

http://www.jsqmd.com/news/457842/

相关文章:

  • 真的太省时间了!AI论文平台 千笔·专业论文写作工具 VS speedai,专科生专属利器!
  • 宠物友好型社区排行,金华宠物医生给出参考建议,宠物绝育/狗狗绝育/母猫绝育/宠物神经外科/异宠医院,宠物医院哪家靠谱 - 品牌推荐师
  • 您的Android联系人消失了?本指南可以帮助您!
  • 有哪些性价比高的头戴式耳机?分享2026十大性价比高的头戴式耳机
  • 清唱歌词的音频直接用,原创音乐人用AI编曲软件直接生成完整歌曲的编曲伴奏
  • 酒店旅游业新服务:集成化国际代驾模块的源码设计与对接实践
  • 计算机毕业设计之springboot疫情访客信息智能收集系统
  • QT生成exe和打包exe文件
  • 零基础本地部署小龙虾 OpenClaw:超详细保姆级教程
  • 别再死守工资了!2026跑腿创业,可能是普通人最后的上车机会
  • Kamailio dispather 选中目标节点后获取目标属性
  • 合同系统实施踩坑实录(二):当蓝图未定,开发已跑——一个“高效”背后的交付陷阱
  • Ingestion服务介绍(数据摄取服务,把外部系统的数据导入到内部数据系统中)(Batch Ingestion批处理摄取、Streaming Ingestion实时摄取)
  • OpenClaw 深度解析
  • Kamailio 对CC发起外呼出局时加0拨打
  • 基于标签的SOP任务编排——用Celery实现精准定时群发
  • OpenClaw 玩家必备!讯飞星辰Coding Plan上线
  • 焕新出发|快快云安全邀您开启云安全的AI时代
  • 素数判断:C语言实现详解
  • 目前靠谱的橡胶木板材制造企业推荐榜 - 品牌推荐(官方)
  • 拒绝PPT概念!实测全球首个通用智能体“实在Agent”:零售电商大促复盘的“救命稻草”
  • 一文读懂BEV感知:将多视角摄像头统一到鸟瞰空间的范式革命
  • Python项目开发结构,以及如何包内如何相互导入及如何运行命令行
  • AI搜索引擎迭代下
  • 野火STM32_HAL库版课程笔记-串口发送之发送字节
  • PAT 乙级 1017
  • 矽塔科技 SA8311 2.5-10.0V/2.0A 单通道 H 桥电机驱动器 SOP8 技术解析
  • 2026夸克网盘扩容1 TB最新教程 必得1024GB~
  • 【系统分析师】11.1 软件需求
  • PTA 实验7-2-6 打印杨辉三角