当前位置：首页 > news >正文

HumDex: Humanoid Dexterous Manipulation Made Easy

news 2026/4/30 14:44:39

HumDex：人形灵巧操作变得简单

”HumDex，这是一种专为人形全身灵巧操作而设计的便携式远程操作系统。我们的系统利用基于 IMU 的运动跟踪来解决便携性与精度的权衡问题，实现准确的全身跟踪，同时保持易于部署。对于灵巧的手部控制，我们进一步引入了一种基于学习的重定向方法，无需手动调整参数即可生成平滑自然的手部动作。除了远程操作之外，HumDex 还可以有效收集人体运动数据。基于这种能力，我们提出了一个两阶段的模仿学习框架，首先对不同的人体运动数据进行预训练以学习可概括的先验，然后对机器人数据进行微调以弥补具体执行的差距。“

全身控制：”在这项工作中，我们采用基于 IMU 的运动跟踪，它仅由 15 个佩戴在身体上的轻型跟踪器组成，提供无约束的运动捕捉和高跟踪质量。“

灵巧控制：”GeoRT [24] 提出了一种以几何原则为指导的超快神经重定向方法，无需测试时优化即可实现实时性能，并支持可扩展的远程操作管道 [24, 25]。我们的方法遵循这种基于学习的方向，采用轻量级监督公式。给定五个指尖的 3D 位置（15个维度），我们训练一个小型 MLP 回归器来预测配对指尖关节样本上的机器人手关节角度。“

有个操作：”我们用前一帧的动作来近似人类数据中缺失的本体感受状态。“

是一种数采方案，从人身上的坐标到机器人坐标的映射。

对于全身控制："遵循 TWIST2 [27] 中提出的分层架构，我们将系统解耦为任务无关的低级控制器 πlow 和高级命令生成器 πhigh。"

对于灵巧控制：“与 TWIST2 将手控制简化为二进制开闭机制不同，我们实现了细粒度灵巧重定向模块。具体来说，我们训练了一个轻量级 MLP 回归器，它将操作员五个指尖的 3D 位置（通过 IMU 手套捕获）直接映射到机器人的 20-DoF 手关节角度。这种基于学习的方法可确保平滑、自然的运动重建，无需手动调整参数。然后将计算出的手部目标 qhand 与身体目标 qbody 连接起来，形成等式 1 中的统一 qref。 (1).”

“如上所述，我们的远程操作设置使用惯性手套进行手部跟踪。在每个时间步，手套提供五个指尖（拇指、食指、中指、无名指和小指）的 3D 位置。我们在手套手腕框架中表达这些指尖位置，以避免对全局漂移敏感。目标是将人类指尖观察实时映射到 20 自由度灵巧手的可执行机器人手关节目标。形式上，令 pt ∈ R15 为连接的指尖位置，qt ∈ R20 为机器人手关节角度。”

也就是说这里可以将人类指尖的实时观察进行映射到20自由度的灵巧手上。这里就比较有意思了，作者相当于提前采好了映射数据，然后拿映射数据训练了一个小网络。参见下述表述

“训练数据集 D 是通过基于离线优化的重定向过程 [3] 生成的，涵盖各种手势。经过训练后，MLP fθ 可以推广到各种手部尺寸，并提供平滑、连续的关节轨迹，而无需每帧优化的高计算成本。”

[3] 是仓库链接https://github.com/wuji-technology/wuji_retargeting，原文中有误，应该是https://github.com/wuji-technology/wuji-retargeting

数据总量在文章中也有表述“数据收集。为了训练重定向功能，我们收集了人类手部姿势和机器人手部关节配置的配对数据集。操作员佩戴数据手套并执行一组预定义的随机手指运动和规范姿势。相应的机器人关节角度通过基于离线优化的 IK 求解器求解，以确保运动学可行性。收集过程大约需要 20 分钟，产生 ∼20k 配对帧。”

我横看竖看也没看到这个datasets是怎么采集的，然后再问问ai，ai也跟我一样的想法。

模型架构在附页中有指出，是一个标准的MLP架构，线性层和激活函数层轮流堆叠。

大脑训练的话就用ACT模型，其他的话包括实验就比较中规中矩了：

HumDex 先证明自己更会采数据，再证明自己采到的是更好的数据，最后再证明这些数据能帮策略在分布外场景里更稳。

查看全文

http://www.jsqmd.com/news/725785/