当前位置: 首页 > news >正文

GR00T N1.6-一个用于通用人形机器人的先进开源基座模型--2025.12.15

0. 前言


这是面向人形机器人的 GR00T N1.5 foundation 模型的改进版本。通过若干架构、数据与建模方面的改进,发现 N1.6 在仿真操控基准测试上,以及在真实的双臂 YAM、AGIBot Genie-1 和 Unitree G1 机器人上的表现都优于 N1.5(下文有详细说明)。预计 N1.6 的用户在完成训练后应能观察到比 N1.5 更好的性能表现。

1. 模型与数据改进

1.1 架构变更:

基础 VLM:

  • 使用了一个内部的 NVIDIA Cosmos-2B VLM 变体。该 VLM 支持灵活分辨率,能够在不填充(padding)的情况下按图像原始纵横比进行编码。该 VLM 在通用的视觉-语言任务和具身推理任务(例如 next action prediction)上共同训练。
  • 使用了 2 倍更大的 DiT(32 层,相比 N1.5 的 16 层)。移除了 N1.5 中位于 VLM 之后的 4 层 transformer 适配器。取而代之的是,在预训练期间解冻了 VLM 的最上层 4 层进行训练。
  • 对于大多数 embodiment,模型预测的是相对于状态的 action chunks,而不是绝对的关节角或 EEF(end-effector)位置。
    除了 N1.5 的数据混合之外,N1.6 的预训练数据还额外包含数千小时来自远程操控(teleoperated)的数据,来源如下
  • 双臂 YAM 平台的数据
  • AGIBot Genie-1 的数据
  • 在 BEHAVIOR suite 上的模拟 Galaxea R1 Pro 数据
  • 与 Unitree G1 的全身局部操控(whole-body locomanipulation)数据

2. 实验

GR00T N1.6 在预训练阶段进行了 300K steps 的训练,使用的 global batch size 为 16384。在后续的机器人实验中,我们对小规模的任务专用数据集进行了额外的 post-train;通常为 10K–30K steps,且 global batch size 为 1K 或更小。

3. 讨论

与 GR00T N1.5 相比,针对 GR00T N1.6 开展了更复杂的真实世界机器人实验,这些实验要求具备长时程(long-horizon)推理、精巧动作(dexterity)和多任务处理能力。

在扩展真实世界实验规模时,吸收了机器人学习社区的多项经验教训,以提高 rollouts 期间模型的成功率。对于大多数 embodiment,默认使用 relative actions 作为动作空间。实验表明,相较于 absolute actions,relative actions 能产生更平滑且更精确的动作。然而在小规模数据集下,relative actions 容易产生误差累积,从而削弱纠正(correction)能力。

当任务分布与预训练数据相近时,pretrained statistics 可以提升性能;反之若分布差异较大,模型可能出现 underfit,因此在分布不同的情形下我们采用 post-training statistics。

GR00T N1.6 比 GR00T N1.5 收敛得更快,从而产生更平滑的动作,但这也需要更谨慎的调参以避免 overfitting。在 post-training 期间,我们通过更强的 state regularization、额外的数据增强(data augmentations),以及与 pretraining 数据的 co-training 来对模型进行正则化。

DAgger 能有效提升模型表现;当模型在真实世界实验中表现不佳时,建议采用该方法。test-time 与 train-time 的 RTC 在异步 rollout 期间能提升动作的平滑性与鲁棒性。在 Unitree G1 与 Bimanual YAM 的实验中采用了该技术。

多任务的 language following 以及 OOD(out-of-distribution)任务的泛化,仍然是当前 VLA 模型面临的挑战。更细粒度的子任务标注(subtask annotation)可以改善 language following,但尚未达到稳健的泛化能力。这将是未来研究中持续推进的方向。总体而言,GR00T N1.6 在多样的 embodiment 上相较于 GR00T N1.5 有所改进。

http://www.jsqmd.com/news/489540/

相关文章:

  • 51单片机-实现红外遥控模块教程
  • 低成本能谱仪设计:基于分立器件的模拟前端与数字后端实现方案
  • 问卷设计界的“智能革命”:书匠策AI如何颠覆传统,重塑科研新生态?
  • 矩阵键盘工作原理与实战技巧
  • Jenkins+K8s自动化部署Spring Boot全流程
  • Windows下VSCode配置C++开发环境
  • 把Tinder算法用于冥婚:阴间婚配率暴涨
  • HCPL-M453-000E,小尺寸、5引脚、高速光耦合器
  • 基于PSO-LSTM的时间序列预测:新手友好MATLAB实战
  • 邀请函|鲁欧智造邀您共赴SEMICON China 2026
  • Spring Boot邮件发送实战指南
  • 寻找未来的AI领跑者 一品威客原创AI应用征集活动火热开启
  • 分布式任务事务框架设计与实现方案
  • 经验谈:如何为你的IoT设备选择一个“靠谱”的网口?(RJ45+变压器篇)
  • 安达发|aps智能排产排程排单软件,让保健品行业生产效率狂飙!
  • 多维时序:基于DNN深度神经网络的多变量时间序列预测探索
  • 云手机ARM架构都具有哪些挑战
  • WebSocket网络编程(TCP/UDP)
  • VUE3 若依 菜单跳转导致页面出现空白
  • web开发,在线%车辆管理%系统,基于Idea,html,css,vue,java,springboot,mysql
  • 移动端1px边框终极解决方案
  • 应用加速游戏盾:安全与性能双提升
  • Linux匿名管道:进程通信核心指南
  • 第2集:技术选型的智慧:Flask vs FastAPI,GLM-4 vs GPT
  • 达梦数据查看模式,达梦数据库sql 查询当前数据库下有哪些模式
  • 科技信息差(10.2)
  • LLM颠覆游戏测试:智能自动化新时代
  • GEO,AI界的“大冤种”
  • uniapp 运行/发版微信小程序
  • ClaudeCode第五章:高效工作流秘籍