当前位置：首页 > news >正文

英伟达推出EgoScale，利用以自我为中心的操作数据进行扩展

news 2026/7/18 18:24:10

利用以自我为中心的数据进行扩展：英伟达推出的EgoScale 使用超过 20,000 小时的人类视频进行预训练，涵盖数千个独特的任务和环境。精确的骨骼手部追踪（图中以红色和蓝色显示）使模型能够提取并重新定位 21 个人体运动关键点，从而构建统一的机器人动作空间。

NVIDIA 的研究人员推出了 EgoScale，这是一个全新的人机迁移框架，它表明，提升机器人灵巧度的关键不在于更多的机器人数据，而在于更多的人类视频。该团队利用一个包含 20,854 小时人类以自我为中心的操作视频的大型数据集进行预训练，发现了一种“可预测的缩放规律”，即人类动作的预测与后续机器人操作的成功率直接相关。

由英伟达GEAR实验室主导的EgoScale项目，标志着传统机器人训练方式的重大突破。传统机器人训练通常依赖于昂贵且速度缓慢的远程操控。EgoScale则将人类视为地球上最具“可扩展性”的载体，利用人类的日常动作为机器构建基础运动模型。

推文译文

我们训练了一个拥有22自由度灵巧双手的类人机器人，使其能够组装模型车、操作注射器、整理扑克牌、折叠/卷起衬衫，所有这些技能主要通过超过2万小时的以人类为中心的视频学习而来，整个过程没有机器人参与。

人类是地球上最具可扩展性的具身模型。我们发现人类视频量与动作预测损失之间存在近乎完美的对数线性缩放规律（R² = 0.998），并且该损失能够直接预测真实机器人的成功率。

类人机器人将是最终目标，因为它们是与人类具身性差距最小、最实用的形态。不妨称之为机器人硬件的惨痛教训：运动学上的相似性使我们能够简单地将人类手指的运动重新映射到灵巧的机器人手关节上。无需学习嵌入，也无需复杂的迁移算法。相对腕部运动加上重新映射的22自由度手指动作构成了一个统一的动作空间，该空间能够从预训练一直延续到机器人执行。

我们的方案名为“EgoScale”：

使用 2 万小时的人类视频预训练 GR00T N1.5，中期训练仅使用 4 小时（！）的 Sharpa 手机器人游戏数据。在 5 项高灵巧性任务中，性能比从零开始训练提升了 54%。
最令人惊讶的结果：仅需一个远程操作演示即可学习一项前所未见的任务。我们的方案实现了极高的数据效率。
虽然我们是在 22 自由度的手关节空间中进行预训练，但该策略可以迁移到具有 7 自由度三指手的 Unitree G1 上。性能比仅使用 G1 数据训练提升了 30% 以上。

实现机器人灵巧性的可扩展路径从来都不是增加机器人数量，而是我们自身。

EgoScale 的核心是一个比以往人机策略转移研究规模大 20 多倍的数据集。该数据集涵盖 9000 多个场景和 6000 多个任务，全面覆盖了现实世界中的各种操作——从组装盒子到处理精密电子设备。

研究人员发现了一种近乎完美的对数线性标度律人类数据量与模型验证损失之间的关系。随着数据规模的扩大，模型预测人类手腕和手部动作的能力单调提升，进而导致真实机器人性能的持续提高。

研究人员指出，“这种离线扩展行为能够很好地预测真实机器人的性能”，这表明大规模人类视频是具身智能的可预测监督来源。

EgoScale框架摒弃了复杂的迁移算法，转而采用简单直接的训练流程：预训练（人类数据）：

使用超过 20,000 小时的人类视频训练视觉-语言-动作 (VLA) 模型。为了弥合具身性差距，将人类手部动作重新定向到 22 自由度 (DoF) 的机器人手关节空间。
训练中期（数据对齐）：使用一个包含 54 小时人机“互动数据”的小型数据集，将模型“锚定”到机器人感知上。此阶段对于将人类衍生的表征转化为可执行的机器人控制至关重要。
训练后（任务特定）：针对特定的下游任务对策略进行微调。

与未经人工预训练的基线模型相比，该方法使平均成功率提高了54%。该模型成功掌握了包括卡片分类、拧开瓶盖，甚至使用注射器转移液体的多步骤操作等高灵巧性任务。

或许最引人注目的成果是单次任务适应能力的出现。借助 EgoScale 先验知识，机器人只需一次远程操作演示，就能学会一项全新的任务，例如叠衬衫。

这种效率表明，该模型不仅模仿动作，而且已经内化了“通用运动基元”。这与近期行业向生成式模拟和基础运动模型的转变相呼应，这些模型优先考虑“物理常识”而非僵化的、程序化的行为。

虽然该模型主要针对22自由度的Sharpa灵巧手进行训练，但学习到的表征却展现出惊人的灵活性。当将其迁移到使用截然不同的7自由度三指手的Unitree G1机器人时，基于人类预训练的策略仍然比仅使用G1数据训练的模型在成功率方面绝对提高了30% 。

自主灵巧操作演示：Galaxea R1 Pro 执行“卷衬衫”任务。该机器人使用 EgoScale 算法，协调两个 22 自由度 Sharpa 机械手，将一件可变形 T 恤折叠并卷成圆柱形，然后放入篮子中。

这种跨具身化的成功印证了机器人硬件领域的一个“惨痛教训”：随着机器人运动学上越来越接近人类，专门的“迁移”层的需求也就消失了。取而代之的是，人类提供的丰富运动数据可以作为通用的运动先验信息。

EgoScale 的发布正值一场旨在解决“机器人数据鸿沟”的竞赛愈演愈烈之际。当其他公司都在大规模收集高保真度的远程操作数据时，NVIDIA 则押注于物理交互的“暗物质”早已编码在数百万小时已被记录的人类活动中。

随着模型容量和人类数据量的持续增长，研究人员预计在长期规划和组合泛化方面将取得更大的进步。最终目标仍然是“物理图灵测试”——一个机器的优雅与人类的优雅无法区分的世界。

查看全文

http://www.jsqmd.com/news/457842/