当前位置：首页 > news >正文

GR00T N1.6-一个用于通用人形机器人的先进开源基座模型--2025.12.15

news 2026/7/2 0:38:05

0. 前言

这是面向人形机器人的 GR00T N1.5 foundation 模型的改进版本。通过若干架构、数据与建模方面的改进，发现 N1.6 在仿真操控基准测试上，以及在真实的双臂 YAM、AGIBot Genie-1 和 Unitree G1 机器人上的表现都优于 N1.5（下文有详细说明）。预计 N1.6 的用户在完成训练后应能观察到比 N1.5 更好的性能表现。

1. 模型与数据改进

1.1 架构变更：

基础 VLM：

使用了一个内部的 NVIDIA Cosmos-2B VLM 变体。该 VLM 支持灵活分辨率，能够在不填充（padding）的情况下按图像原始纵横比进行编码。该 VLM 在通用的视觉-语言任务和具身推理任务（例如 next action prediction）上共同训练。
使用了 2 倍更大的 DiT（32 层，相比 N1.5 的 16 层）。移除了 N1.5 中位于 VLM 之后的 4 层 transformer 适配器。取而代之的是，在预训练期间解冻了 VLM 的最上层 4 层进行训练。
对于大多数 embodiment，模型预测的是相对于状态的 action chunks，而不是绝对的关节角或 EEF（end-effector）位置。
除了 N1.5 的数据混合之外，N1.6 的预训练数据还额外包含数千小时来自远程操控（teleoperated）的数据，来源如下
双臂 YAM 平台的数据
AGIBot Genie-1 的数据
在 BEHAVIOR suite 上的模拟 Galaxea R1 Pro 数据
与 Unitree G1 的全身局部操控（whole-body locomanipulation）数据

2. 实验

GR00T N1.6 在预训练阶段进行了 300K steps 的训练，使用的 global batch size 为 16384。在后续的机器人实验中，我们对小规模的任务专用数据集进行了额外的 post-train；通常为 10K–30K steps，且 global batch size 为 1K 或更小。

3. 讨论

与 GR00T N1.5 相比，针对 GR00T N1.6 开展了更复杂的真实世界机器人实验，这些实验要求具备长时程（long-horizon）推理、精巧动作（dexterity）和多任务处理能力。

在扩展真实世界实验规模时，吸收了机器人学习社区的多项经验教训，以提高 rollouts 期间模型的成功率。对于大多数 embodiment，默认使用 relative actions 作为动作空间。实验表明，相较于 absolute actions，relative actions 能产生更平滑且更精确的动作。然而在小规模数据集下，relative actions 容易产生误差累积，从而削弱纠正（correction）能力。

当任务分布与预训练数据相近时，pretrained statistics 可以提升性能；反之若分布差异较大，模型可能出现 underfit，因此在分布不同的情形下我们采用 post-training statistics。

GR00T N1.6 比 GR00T N1.5 收敛得更快，从而产生更平滑的动作，但这也需要更谨慎的调参以避免 overfitting。在 post-training 期间，我们通过更强的 state regularization、额外的数据增强（data augmentations），以及与 pretraining 数据的 co-training 来对模型进行正则化。

DAgger 能有效提升模型表现；当模型在真实世界实验中表现不佳时，建议采用该方法。test-time 与 train-time 的 RTC 在异步 rollout 期间能提升动作的平滑性与鲁棒性。在 Unitree G1 与 Bimanual YAM 的实验中采用了该技术。

多任务的 language following 以及 OOD（out-of-distribution）任务的泛化，仍然是当前 VLA 模型面临的挑战。更细粒度的子任务标注（subtask annotation）可以改善 language following，但尚未达到稳健的泛化能力。这将是未来研究中持续推进的方向。总体而言，GR00T N1.6 在多样的 embodiment 上相较于 GR00T N1.5 有所改进。

查看全文

http://www.jsqmd.com/news/489540/