HumDex: Humanoid Dexterous Manipulation Made Easy
HumDex:人形灵巧操作变得简单
”HumDex,这是一种专为人形全身灵巧操作而设计的便携式远程操作系统。我们的系统利用基于 IMU 的运动跟踪来解决便携性与精度的权衡问题,实现准确的全身跟踪,同时保持易于部署。对于灵巧的手部控制,我们进一步引入了一种基于学习的重定向方法,无需手动调整参数即可生成平滑自然的手部动作。除了远程操作之外,HumDex 还可以有效收集人体运动数据。基于这种能力,我们提出了一个两阶段的模仿学习框架,首先对不同的人体运动数据进行预训练以学习可概括的先验,然后对机器人数据进行微调以弥补具体执行的差距。“
全身控制:”在这项工作中,我们采用基于 IMU 的运动跟踪,它仅由 15 个佩戴在身体上的轻型跟踪器组成,提供无约束的运动捕捉和高跟踪质量。“
灵巧控制:”GeoRT [24] 提出了一种以几何原则为指导的超快神经重定向方法,无需测试时优化即可实现实时性能,并支持可扩展的远程操作管道 [24, 25]。我们的方法遵循这种基于学习的方向,采用轻量级监督公式。给定五个指尖的 3D 位置(15个维度),我们训练一个小型 MLP 回归器来预测配对指尖关节样本上的机器人手关节角度。“
有个操作:”我们用前一帧的动作来近似人类数据中缺失的本体感受状态。“
是一种数采方案,从人身上的坐标到机器人坐标的映射。
对于全身控制:"遵循 TWIST2 [27] 中提出的分层架构,我们将系统解耦为任务无关的低级控制器 πlow 和高级命令生成器 πhigh。"
对于灵巧控制:“与 TWIST2 将手控制简化为二进制开闭机制不同,我们实现了细粒度灵巧重定向模块。具体来说,我们训练了一个轻量级 MLP 回归器,它将操作员五个指尖的 3D 位置(通过 IMU 手套捕获)直接映射到机器人的 20-DoF 手关节角度。这种基于学习的方法可确保平滑、自然的运动重建,无需手动调整参数。然后将计算出的手部目标 qhand 与身体目标 qbody 连接起来,形成等式 1 中的统一 qref。 (1).”
“如上所述,我们的远程操作设置使用惯性手套进行手部跟踪。在每个时间步,手套提供五个指尖(拇指、食指、中指、无名指和小指)的 3D 位置。我们在手套手腕框架中表达这些指尖位置,以避免对全局漂移敏感。目标是将人类指尖观察实时映射到 20 自由度灵巧手的可执行机器人手关节目标。形式上,令 pt ∈ R15 为连接的指尖位置,qt ∈ R20 为机器人手关节角度。”
也就是说这里可以将人类指尖的实时观察进行映射到20自由度的灵巧手上。这里就比较有意思了,作者相当于提前采好了映射数据,然后拿映射数据训练了一个小网络。参见下述表述
“训练数据集 D 是通过基于离线优化的重定向过程 [3] 生成的,涵盖各种手势。经过训练后,MLP fθ 可以推广到各种手部尺寸,并提供平滑、连续的关节轨迹,而无需每帧优化的高计算成本。”
[3] 是仓库链接https://github.com/wuji-technology/wuji_retargeting,原文中有误,应该是https://github.com/wuji-technology/wuji-retargeting
数据总量在文章中也有表述“数据收集。为了训练重定向功能,我们收集了人类手部姿势和机器人手部关节配置的配对数据集。操作员佩戴数据手套并执行一组预定义的随机手指运动和规范姿势。相应的机器人关节角度通过基于离线优化的 IK 求解器求解,以确保运动学可行性。收集过程大约需要 20 分钟,产生 ∼20k 配对帧。”
我横看竖看也没看到这个datasets是怎么采集的,然后再问问ai,ai也跟我一样的想法。
模型架构在附页中有指出,是一个标准的MLP架构,线性层和激活函数层轮流堆叠。
大脑训练的话就用ACT模型,其他的话包括实验就比较中规中矩了:
HumDex 先证明自己更会采数据,再证明自己采到的是更好的数据,最后再证明这些数据能帮策略在分布外场景里更稳。
