当前位置：首页 > news >正文

BeyondMimic：从运动追踪到通过引导扩散实现多功能人形机器人控制

news 2026/3/27 0:00:11

25年11月来自UC Berkeley和Stanford大学的论文“BeyondMimic: From Motion Tracking to Versatile Humanoid Control via Guided Diffusion”。

类人机器人的类人外形使其在运动技能方面拥有独特的优势，能够像人类一样灵活敏捷。通过学习人类示范动作，可以提供一种可扩展的方法来获取这些能力。然而，以往的研究要么产生不自然的动作，要么依赖于针对特定动作的调整才能达到令人满意的自然度。此外，这些方法通常局限于特定的动作或目标，缺乏组合多种技能的灵活性，尤其是在解决未知任务时。BeyondMimic，一个可扩展到多种动作的框架，并具备无缝组合这些动作以应对未知下游任务的灵活性。其核心是一个紧凑的运动跟踪公式，只需一套设置和共享的超参数，即可掌握各种极其敏捷的行为，包括空中翻滚、旋转踢腿、空翻踢腿和冲刺，同时还能达到最先进的类人性能。其超越对现有动作的简单模仿，提出了一种统一的潜扩散模型，该模型能够实现灵活的目标指定、无缝任务切换以及这些敏捷行为的动态组合。利用分类器引导（一种针对扩散的测试-时优化技术，用于针对新目标），该模型扩展其解决训练过程中从未遇到的下游任务的能力，包括运动修复、操纵杆远程操作和避障，并将这些技能零样本迁移到真实硬件上。这项工作突破从人类运动中可扩展地获取类人运动技能的极限，并推进无缝运动合成，从而实现超越训练设置的泛化能力和通用性。

人类一直以来都憧憬着这样一个未来：人形机器人和人类共同生活、工作，融入日常生活。这些机器人将拥有像《星际迷航：下一代》（1987-1994）中的Data那样的多功能性，能够在为人类设计的环境中执行各种任务；拥有像《铁臂阿童木》（2009）中的Astro那样的敏捷身手，能够在复杂的世界中轻松穿梭；并且能够像《超能陆战队》（2014）中的Baymax那样，通过自然、温和的互动与人类协作。要实现这一愿景，就需要赋予人形机器人智能，使其能够像人一样行动和互动，通过肢体语言表达意图，在人类环境中流畅自如地行动，并在共同任务中无缝协作。

人形机器人与人类拥有相似的形态，这为它们学习人类的技能提供了绝佳的机会。通过学习人类的示范，可以提供一种可扩展的方式来发展这些技能，同时自然地捕捉到人类级别的敏捷性和类人行为。然而，由于控制问题的高维度，协调其数十个关节和执行器带来了巨大的挑战。浮动底座进一步增加了复杂性，因为稳定的平衡本身就难以实现，更遑论自然、类人的运动。相比之下，人类不仅掌握了运动和舞蹈等敏捷技能，而且具有高度的适应性：可以根据任务需要切换多种运动技能，并通过组合已有的技能来解决简单的未知任务。赋予这些机器人同样的敏捷性、自然性和适应性仍然是机器人领域的一项重大挑战。

人形机器人控制的研究历来都是通过基于模型范式推进的，这种范式将简化的动力学与分层控制相结合【1, 2】。在实践中，一些低频规划器会根据质心（CoM）、动量、接触时间表和足部位置等粗略变量生成未来的轨迹【1, 3–8】。高频低级控制器随后使用高保真模型以近视的方式跟踪这些参考运动【1, 9–12】。这种分离使得计算量可控，但简化也带来了局限性。运动学和动力学替代模型通常会导致不自然的运动，例如恒定的质心高度或持续弯曲的膝盖【13–15】，从而限制机器人只能在其完整运动范围的一小部分内活动。通过调整动量代价来改善运动质量的尝试，会引入一些手臂摆动和上半身旋转，但仍然局限于局部风格调整，而无法恢复整体类人协调性【16, 17】。此外，将控制栈迁移到现实世界中，会在高度动态的运动中引入显著的未建模动力学和建模误差【18】，并且对于地面滚动（ground rolling）等接触密集型技能，基于模型的、显式接触规划仍然很困难【19】。

为了克服这些挑战，基于学习的方法，特别是强化学习（RL），已成为很有前景的替代方案。通过适当的奖励机制和模拟-到-现实的迁移，强化学习训练的人形机器人现在可以执行多种多样的运动行为，包括在平地【20】和斜坡【21,22】上行走、爬楼梯【23,24】、跑步【25】、穿越诸如踏脚石或狭窄横梁等复杂地形【26,27】，甚至基本的顺应性控制【28】。然而，这些成功依赖于针对特定任务精心设计的奖励，而这些奖励必须针对每一种新的行为重新设计。这使得扩展到大量技能的成本极其高昂。此外，由于“自然性”和“类人性”难以用明确的优化参数来表达，精心设计的目标常常导致不自然的运动，例如连续迈步、膝盖弯曲和剧烈冲击。尽管已经提出一些针对性的改进方法，例如通过质心动量优化来改善手臂摆动 (29)，但这些方法仍然局限于特定案例，无法推广到各种不同的运动。

一种很有前景的替代方案，是利用大规模人体运动数据直接学习人类水平的技能。在基于模型的设置中，人体运动轨迹库可以作为在线控制器的有效热启动，并取得了令人鼓舞的结果【30, 31】。然而，这些方法在实验室条件之外的鲁棒性仍然不足。相比之下，基于强化学习的运动追踪方法已经能够学习敏捷自然的技能，但在实际应用中的适应性有限。具体来说，DeepMimic 式的奖励机制【32】已经展示了跳跃和转弯【33】、单腿平衡【34】甚至武术动作序列【35】的学习，但这些策略依赖于针对特定运动的调整，无法泛化到训练过程中观察的运动之外。为了改进这一点，对抗性运动先验（AMPs）【36】学习特定任务控制的运动“风格”【37】，并能泛化到特定运动片段之外，但这些策略通常无法跨任务复用，需要从头开始重新训练。

为了提高通用性，以往的研究主要采用两种方法。第一种是分层控制，它将与任务无关的运动跟踪器【38-41】与任务级运动规划器【42, 43】相结合。这种方法能够将学习到的技能复用于新任务，但通常会牺牲灵活性和自然性，并且由于训练过程是解耦的，因此容易出现规划器与控制器不匹配的问题【44, 45】。为了避免这种不匹配，第二种方法是使用多任务生成模型直接学习运动分布。其中，基于变分自编码器（VAE）的模型已经展现出良好的灵活性和技能组合能力【46, 47】。然而，由于它们在训练过程中依赖于显式的目标条件化，并且难以泛化到目标隐式或难以指定的任务（例如避障或长距离导航），导致运动分布异常、抖动以及自然度下降【48】，因此它们的通用性仍然有限。

本文提出 BeyondMimic，一个可扩展的框架，它通过学习各种未标记的人类运动，并在推理时通过在线优化无缝地合成这些运动，从而使人形机器人能够达到人类水平的敏捷性、自然度和通用性，以解决未见过的真实世界任务。如图所示，该方法在各种户外条件下进行部署，展现出超越以往人形机器人工作的敏捷和自然的运动。此外，首次在现实世界中部署一个灵活的统一控制器，该控制器仅通过在线规划即可处理各种下游任务，无需任何特定任务的训练、微调或策略优化。

BeyondMimic 基于两个关键洞察。

1）首先，摒弃通常引入复杂强化学习公式以促进仿真-到-真实迁移的做法。在传统设置中，为了弥补实际部署过程中理想化仿真动力学的不足，通常会采用大量的域随机化、奖励正则化和复杂的观测数据。然而，这往往会降低性能，需要针对特定运动进行调优。本文则证明，可扩展的高质量运动跟踪可以从一个简洁、原理清晰的公式中涌现。为了实现无需任何特定运动调优的通用公式，基于经典力学原理对机器人驱动进行精细建模，并确保系统实现的合理性，从而最大限度地减少部署过程中的偏差，例如延迟。这种严谨的设计能够仅对真正不确定的物理属性应用域随机化，从而在不削弱控制目标的前提下保持系统的鲁棒性。因此，能够将奖励公式简化为仅包含三个对物理一致性行为至关重要的正则化项，以及一个能够泛化到各种运动的统一任务奖励。通过简洁高效的公式，强化学习训练变得简单直接：在各种技能和不同的物理引擎中使用相同的模型参数、奖励函数和超参数，从而使类人行为能够零样本迁移到真实的人形机器人上。

2）其次，通用性必须超越训练时的多样性。机器人部署后，必须在测试时适应新的目标。BeyondMimic 将强化学习训练的原子技能合成新的序列，以便在测试时实现零样本、特定任务的控制。关键在于，扩散模型（与变分自编码器或自适应调制器不同）不仅能够捕捉各种技能的复杂多模态分布，还能支持在测试-时针对新目标进行在线优化。具体来说，它们学习的是数据分布的梯度场【49】，而不是分布本身，从而能够在测试-时针对任意微分目标进行基于梯度的优化，这种技术被称为分类器引导。为了利用这一能力，采用一种状态-动作协同扩散模型，该模型以预测控制的方式运行，从而可以对未来的状态和动作进行成本计算。这种独特的设计选择使得单个统一的控制器能够利用无标签数据解决各种未见过的任务，例如航点导航、操纵杆远程操作和避障，同时保持原始人体运动的自然风格和动态特性。

总而言之，BeyondMimic 提供首个统一的框架，实现人类级别的敏捷性、类人行为和零样本任务适应性。通过将可扩展的人体运动学习与基于扩散的在线优化相结合，它弥合了专业运动跟踪和通用任务适应性之间的差距。

从人体运动中可扩展地学习

该框架展示从各种人体运动中可扩展地学习的能力。通过运动跟踪，机器人使用单一公式和共享的超参，无需针对特定运动进行调整，即可成功学习一系列敏捷、时尚且类人的技能。

多样化的技能

总共训练约 2.5 小时的各种人体运动，并在高保真仿真中成功验证所有运动。为了评估仿真-到-现实的迁移，在物理机器人上部署 30 个具有代表性的视频片段（总计 15 分钟），结果表明在仿真中学习的技能可以可靠地迁移到硬件上（如图所示）。

所展示的行为涵盖静态和平衡关键型运动，例如单腿站立和不同姿势的站立；以及高度动态的技能，例如单腿跳跃、转身踢腿、带有 180° 和 360° 旋转的前跳以及侧手翻；以及具有明显人性特征的程式化或表现性行为，例如老年人的行走方式、舞蹈动作和运动动作。值得注意的是，许多具有挑战性的片段是与其他多种技能联合训练的，整个参考动作时长超过三分钟。尽管如此，该策略仍能保持灵活性和风格细节，表明无需针对特定动作进行调整即可适用于各种人体动作。

人类水平的敏捷性

在包含松软土壤、落叶和不平整地面的户外环境中评估机器人的敏捷性，引入训练中未曾遇到的可变形和不稳定的接触。尽管面临这些未知的挑战，机器人仍完成复杂的杂技动作和受武术启发的动作（如图所示），包括空中翻滚。空中翻滚需要爆发式的起跳、可控的空中旋转和精准的落地，即使对于训练有素的成年人来说也颇具难度。

具体而言，在空中阶段，机器人达到了 31 m/s² 的峰值加速度和高达 20 rad/s 的骨盆角速度（平均 7.01 rad/s）。熟练的人类空中动作也曾报道过类似的数值（平均 7.75 rad/s）【50】。此外，机器人的落地非常平稳，几乎不需要恢复，表明其空中姿态控制精准。这些结果表明，该框架在高度动态的运动中实现了人类水平的敏捷性。

本框架在接触丰富的控制中也展现出了类似人类的敏捷性。这包括连续两次侧手翻、在地上爬行以及从地上跳起。它还能够重现需要全身协调配合的运动动作，例如C·罗纳尔多庆祝时的跳跃转身，并且能够连续重复五次庆祝动作而不会失去稳定性或风格，而之前的研究[33]仅报告一次执行。

自然类人的行为

如图 A-B 所示，框架在行走和跑步等多种任务中展现出类似人类的自然行为。为了评估生物力学相似性，使用力感应跑步机【51, 52】比较机器人和人类的地面反作用力 (GRF) 曲线，并根据总体重进行归一化。如图 C 所示，机器人展现出与人类相似的 GRF 曲线形状，包括行走时的双峰（具有明显的足跟着地峰和推进蹬离峰）以及跑步时的单峰（加载和蹬离时间一致）。在行走过程中，机器人的力峰值更为尖锐，反映出其柔顺性和腿部弹簧效应的降低。这是由于机器人缺少趾关节，限制支撑期的滚动和蹬离。在跑步过程中，这种限制不太明显，因为每一步只接触一次地面，且接触时间更短，从而减少对柔顺的蹬离阶段的需求。

此外，为了定量评估感知自然度，进行了一项用户研究（N = 77），将动作与 Unitree 的原生控制器（该机器人目前最先进的控制器）进行比较。参与者观看 20 组时长 5 秒的行走和跑步视频片段，如图D-E所示，这些片段分别来自框架和 Unitree 的原生控制器，并选择哪个动作看起来“更像人类，更自然”。进行双尾二项式检验来检验总体偏好（α = .05），并使用 Bonferroni 校正对每种步态类型分别进行检验（α = .025）。 BeyondMimic 总体上更受青睐（70.8% vs. 29.2%，p < .001，Cohen’s h = 0.859），在行走（57.0% vs. 43.0%，p < .001，h = 0.281）和跑步（84.7% vs. 15.3%，p < .001，h = 1.532）方面均表现出显著优势。

最后，展示该机器人在外部干扰下类似人类的恢复能力（图 F）。当机器人行走时被轻轻扶住，它保持顺应性，暂停并稳定在原地，然后在被放开后平稳地恢复行走，避免了僵硬或夸张的反应。

多功能人形机器人控制

框架的关键优势在于其能够在推理阶段通过扩散引导合成敏捷的类人技能，从而无需重训练即可完成未见过的任务。下图 A 展示这一预测控制过程：模型首先预测未来的状态和动作，然后迭代地优化预测结果，最终收敛使指定速度代价最小化的轨迹。重要的是，这种方法不同于在线轨迹优化：由于模型已经预先获得了多样化且可行的运动技能集，因此只需简单的、特定于任务的代价即可触发针对未见过任务的相应行为。这消除了基于模型或基于学习的方法中所需的众多正则化项和行为塑造项，从而提供一种更加通用的解决方案。

其实验在三个方面证明了这种多功能性：使用速度和路径点命令进行命令条件运动，使用关键帧进行图像修复以实现敏捷的技能组合，以及灵活的任务组合。

指令控制运动

首先演示基于零样本指令的运动，指令控制方式包括期望速度和航点目标。在该任务中，策略接收操纵杆指令，指令指定线速度和偏航速度，或航点目标，航点目标指示期望位置（如上图所示）。

在航点导航下（上图 B），策略能够生成平滑稳定的轨迹，从不同的初始位置到达目标。在操纵杆控制下（上图 C），机器人展现出平滑的全方位行走，并可靠地跟踪指令方向。控制器对较大的外部扰动（例如踢击）保持鲁棒性，并持续完成任务目标。在更长时间的评估中，机器人能够在跑道上连续运行超过 50 米，表明其在长距离内具有稳定的控制能力。在仿真评估中，行走和跑步的平均速度跟踪误差分别为 12.14% 和 13.65%。

该策略还展现出多模态运动行为，能够在相似的指令下产生不同的步态。例如，低速指令可以产生稳定的步行步态或轻快的慢跑步态，这两种步态都类似于人类的步态，且具有动态稳定性。此外，仅给定期望的速度输入，该策略即可实现从步行到跑步的平滑步态过渡（上图 D-E）。值得注意的是，此类过渡在运动数据中很少见且未被标记；然而，当任务需要时，控制器能够自然地推断并重现这些过渡，这与人类通过上下文和意图而非明确的技能规范来习得平滑的技能过渡非常相似。

运动修复和任务转换

在速度指令和路径点下建立了多模态运动之后，许多敏捷的杂技动作需要更强、时间结构化的目标。因此，不再依赖微弱的速度或位置线索，而是采用运动修复技术，利用一组稀疏的未来关键帧来引导策略生成平滑的中间运动，从而实现敏捷运动技能的在线插入、过渡和组合。如下图 A 所示，从操纵杆控制的行走开始，以 0.2 秒的间隔注入所需的侧手翻关键帧。因此，扩散策略驱动向侧手翻的平滑过渡，并将离散的关键帧修复为时间上连贯且连续的轨迹。侧手翻完成后，控制器平滑地返回到指令控制的行走。

采用相同的修复设置，扩散模型能够准确地展示从人体运动跟踪中学习的各种复杂运动，以及向这些运动的过渡。从指令控制的行走开始，该模型平滑地过渡到这些复杂的技能，包括接触丰富的行为，例如行走到躺下并敏捷地起身站立，以及高度动态的步态，例如旋转踢和翻转踢。

除了能够组合敏捷运动之外，该基于在线优化的框架，还使其能够灵活地适应不同的任务规范。如下图 A(iii) 所示，演示三个连续的侧手翻动作，并在其前后穿插行走和跑步动作。这种长时域执行不仅展现模式切换的鲁棒性和平滑性，更重要的是，它还展现在不同任务（例如速度跟踪和运动修复）之间自由切换的能力。

任务组合

除了模式切换之外，框架还展示直观的任务组合能力，这对于大多数先前的目标条件控制器来说都是一个挑战。这一挑战主要源于需要枚举的目标组合数量呈指数级增长。此外，某些任务在训练期间难以完全覆盖，但在测试时可以高效评估。本文方法通过允许在推理时评估和优化多个目标来解决这个问题，而无需枚举所有可能性。由于成本保持简单且与任务相关，因此可以灵活地进行加总，而无需创建需要大量调整的复杂目标，从而使框架能够在无需重新训练的情况下解决未见过的任务组合。

为了展示任务组合的灵活性，通过将路径点跟踪代价与避障代价相结合，实现简单的场景感知导航，如上图 B 所示。避障代价由有符号距离场 (SDF) 构成，在每个去噪步骤中提供预测范围内的距离梯度，从而引导预测轨迹避开障碍物。因此，机器人成功绕过障碍物并到达目标路径点。当用操纵杆跟踪代价代替路径点代价时，这种代价组合仍然有效，使系统即使在用户轻微偏离目标的情况下也能减少碰撞。

概述

模型的目标是在各种未见过的下游任务中实现多功能的人形机器人控制，合成具有持续敏捷性和类人自然度的多样化动作。

在第一阶段，专注于通过基于强化学习 (RL) 的可扩展运动跟踪来学习各种人类动作。以往的研究要么训练单一的多技能策略【39, 42】，虽然可扩展，但由于强化学习探索不足而产生不自然的行为；要么学习单独的特定运动策略【34, 35】，虽然可以实现自然的动作，但需要针对特定运动进行调整。与这些方法不同，一个通用、简单而高效的强化学习流程足以实现可扩展的运动跟踪。该流程使用一组共享的超参数，在保持人类水平的敏捷性和自然性的同时，提供了扩展到各种动作所需的可扩展性和一致性。

在第二阶段，训练一个统一的扩散模型（DM），该模型整合各种动作，以预测控制的方式实现富有表现力的技能组合和在线任务优化。使用扩散模型的关键动机在于，它们能够通过分类器引导自然地支持预测控制。分类器引导是一种在线优化过程，可以将无条件生成引导至特定任务的条件生成。与以往基于扩散的仅动作策略【60, 61】不同，实现这一能力的关键在于采用潜状态-动作扩散模型。该模型隐式地捕捉动作如何影响未来状态，并在推理过程中提供预测能力。这种预测结构能够通过无缝地合成学习到的技能，在未知场景中实现灵活控制。

训练完全在仿真环境中进行，使用制造商指定的最精确参数，无需任何额外的系统识别。训练完成后，每个阶段都会在物理机器人上进行零样本部署。实现这一迁移的关键在于完全用 C++ 开发并针对实时执行进行优化的部署框架。该框架确保稳定、低延迟的控制以及策略推理和硬件执行之间的精确同步，从而解决仿真与真实应用之间的一个关键差距。尽管仅使用 CPU 和普通的移动 GPU 运行，但该实现方式无需任何运动或机器人特定的调整，即可在两个阶段实现强大的仿真-到-真实的转换。

基于强化学习的可扩展人体运动跟踪

将可扩展运动跟踪定义为一个“一刀切”的框架，其中每个运动都使用其自身的策略进行训练，但采用共享的公式和训练设置，从而在不影响运动质量的前提下，最大限度地减少任何新运动的调优工作量。为了实现这一目标，提出一种原则性的、与运动无关的流程，用于跟踪具有类人敏捷性和自然性的人体运动。运动跟踪问题，被建模为马尔可夫决策过程 (MDP)，并使用强化学习 (RL) 求解，以最大化该 MDP 下的预期累积奖励。给定数分钟的参考运动，该流程使用相同的 MDP 和超参数，生成适用于所有运动的仿真-到-真实场景的运动跟踪策略。这种统一的设置使得无需手动调优即可无缝扩展到数百种技能。

由于该MDP 公式是时间不变的，为了清晰起见，省略时间步长 t。下标“ref”表示来自参考运动的量。除非另有规定，本节中的所有数量均以世界坐标系表示。

如下图 A 所示，定义一个锚体 𝑏——anchor（通常是根部或躯干），并用它来表达锚定体中心坐标系中各物体的期望姿态。锚体本身直接跟随参考系，即 𝑇^des_anchor = 𝑇^ref_anchor。对于任何非锚体 𝑏 ≠ 𝑏_anchor，令 𝑇^des_b = A(T^ref_b, 𝑇_anchor)，其中 A(·) 是一个偏航角对齐、高度保持的变换，而期望的扭转保持不变，即 V^des_b = V^ref_b。由此得到的运动跟踪目标函数为：

(𝑇^des_anchor, V^des_anchor, {𝑇^des_b, V^des_b}_𝑏∈ B_Target)。

该目标函数在保持运动风格的同时允许良性全局漂移，从而提高鲁棒性和仿真-到-真实的迁移率。

奖励

为了最大限度地提高跨运动的迁移性并最大限度地减少特定运动的偏差，设计一种简单且与运动无关的奖励，它由一个统一的任务项和三个正则化惩罚项组成。任务奖励采用统一的任务空间公式，并赋予均匀权重，以促进对所有目标身体的精确跟踪。

与以往使用大量临时正则化方法的研究不同，本文仅使用三种轻量级、广泛适用的惩罚项，这些惩罚项能够泛化到各种运动中，从而鼓励物理上一致的行为。首先，关节限制惩罚项 𝑟_limit 鼓励关节位置保持在软限制范围内，以避免损坏硬件。其次，动作速率惩罚项 𝑟_smooth 促进连续动作之间的平滑过渡，防止策略出现过度抖动。第三，为了惩罚自碰撞，统计自接触力超过预定义阈值的物体数量，并将它们相加作为总接触惩罚项 𝑟_contact，该惩罚项针对所有物体 𝑏 ∉ Bee。

观察与动作

用连续的、以机器人为中心的观察空间，不进行时间堆叠，这样简化训练并提高仿真-到-真实的迁移效果。

策略输入的观测值为：

o = [𝝍, e_anchor, V_imu, 𝜽 − 𝜽⁰, 𝜽·, a_last]，

它由以下部分组成：(i) 来自参考运动的运动相位，𝝍 = [𝜽^ref, 𝜽·^ref]，仅用作进度提示；该策略并非旨在直接跟踪这些关节状态。(ii) 锚点姿态误差 e_anchor，由位置误差 e_p,anchor 叠加而成，这是一个 6 维方向误差，通过取旋转误差矩阵 𝑅^des_anchor 𝑅^⊤_anchor (Rot6D (62)) 的前两列获得；由于参考运动是全局定义的，因此该项提供了平衡和漂移校正所需的最小全局提示。（iii）其他本体感觉包括以 IMU 坐标系 V_imu 表示的 IMU 扭转，有助于推力恢复、足部时机和稳定性；关节状态，包括相对于默认坐标系 𝜽 − 𝜽⁰的关节位置和关节速度 𝜽·；以及先前的动作 a_last。结合先前动作的关节状态可以近似反映当前关节的扭矩和接触情况。此外，先前动作加上动作平滑度惩罚项 𝑟_smooth 有助于抑制高频抖动。

动作被设计为归一化的关节位置设定值：𝜽^sp= 𝜽⁰+ 𝜶 ⊙ a，其中 a 是策略输出，𝜶 是每个关节的动作尺度（⊙ 表示逐元乘积）。这些设定值作为位置 PD 控制器指令发送到底层电机驱动器以生成扭矩。然而，它们并非需要高精度跟踪的位置目标或规划；相反，它们作为中间变量来塑造所需的扭矩，并且有意不被关节运动学限制所限制。

在以往的研究中，为了简化控制，通常会采用高关节阻抗（PD 增益）【32,33,39,63】：在自由空间中，高反馈增益抑制自然动力学并主导闭环动力学，导致关节表现得像刚性、高带宽的位置伺服电机——也就是说，跟踪接近于运动学回放。然而，这种高阻抗设置通常在硬件上是不切实际的：它们会放大传感器噪声，降低冲击吸收所需的被动顺应性，并掩盖当前关节状态和先前命令所携带的隐式扭矩信息。

域随机化

域随机化对于成功实现从仿真-到-真实环境的迁移至关重要。然而，过度随机化会降低策略性能，导致行为过于保守，训练难度也随之增加。为了在保持流畅自然行为的同时，实现跨多种运动的可扩展训练，维护一套精简的域随机化方案最为有效。在实践中，对三个在不同运动中泛化良好的关键参数进行随机化：地面摩擦系数和恢复系数、默认关节位置 𝜽⁰（用于动作和观测，模拟关节偏移校准误差）以及躯干质心位置。此外，在训练过程中施加随机速度扰动，以提高对环境变化的鲁棒性。

自适应采样

训练长运动序列面临的挑战在于，不同片段的难度差异很大。以往研究【33,63】中常用的对整个轨迹进行均匀采样的方法，往往会过度采样较简单的部分，而对较难的部分采样不足，导致学习速度缓慢甚至无法收敛。为了解决这个问题，采用一种自适应采样策略，优先采样那些经验失败率较高的片段。当策略掌握较难的片段且失败率降低后，采样器会逐渐恢复到均匀采样，以确保对较简单区域的覆盖。

基于引导扩散的多功能人形机器人控制

轨迹建模的LDM模型

实现多功能控制的关键，在于能够针对训练过程中未遇到的任务进行在线优化。扩散模型【64】除了能够捕捉多模态分布外，还可以通过梯度上升（一种称为分类器引导的过程）来优化其输出，使其达到新的目标。该方法最初应用于图像生成【65】，并已被证明在强化学习【66】和角色动画【67, 68】中有效。然而，利用此功能并非易事，因为任务目标定义在状态空间中，而典型的策略输出则在动作空间中。一种方法是使用前向动力学模型【69, 70】来弥合这一差距，但此类模型通常受到高维性和实时性要求的限制。受先前工作的启发，在潜扩散模型中联合建模状态和动作，并建立二者之间的因果一致性来弥合这一差距。此外，该模型并非仅对下一步进行建模，而是预测未来轨迹的短期范围，从而允许任务目标引导未来状态，进而以滚动-时域（receding-horizon）控制的方式产生相应的动作。

如上图 B 所示，潜状态-动作扩散模型由两部分组成。首先，使用一组不同的运动跟踪策略训练一个变分自编码器 (VAE)，为扩散模型提供平滑的运动表示。其次，通过展开 VAE 收集的潜信息训练一个状态-潜扩散模型。这两个组件均在未标记的、与任务无关的数据上进行训练。在推理阶段，应用一个未知的代价函数来引导状态-潜扩散模型朝着期望的轨迹运动，并使用 VAE 解码器解码其潜在输出，从而生成关节级动作。

在设定中，类人行为的预测控制相当于学习产生协调的类人运动的轨迹分布。将其建模为一个轨迹建模问题，并使用潜扩散模型（LDM）来表示它。这些轨迹由运动跟踪策略生成，并作为一般类人行为的样本。重要的是，它们仅包含状态-动作对，不包含任何参考信息，因为目标是建模类人行为的内在分布，而不是跟踪过程本身。

为了确保空间一致性，对状态空间采用一种混合的、以特征-偏航角为中心的参数化方法。一条轨迹由 N 个过去时间步、当前时间步和 H 个未来时间步组成。对于轨迹中的每个时间步 𝑛 ∈ [−𝑁, 𝐻]，状态 s_𝑡+𝑛 包含相对于时间步 𝑡 的当前根坐标系的根位姿 (p^𝑡+𝑛_imu, R^𝑡+𝑛_imu) 和扭转角 (v^𝑡+𝑛_imu, 𝝎^𝑡+𝑛_imu)，以及相对于时间步 𝑡+𝑛 局部根坐标系的物体位置 p^𝑡+𝑛_b 和速度 v^𝑡+𝑛_b。动作空间与运动跟踪策略中的相同，对应于阻抗控制器的目标输入。

针对轨迹建模问题，使用LDM而非标准扩散模型的原因有两方面。首先，作为阻抗控制器设定点的动作空间高度不规则，存在尖锐的扭矩峰值，导致直接扩散学习不稳定，并违反扩散模型的平滑性假设。其次，精确轨迹建模所需的大型扩散网络会引入不可忽略的推理延迟，导致生成的动作滞后于最新状态。相比之下，具有平滑运动表示的潜空间非常适合扩散建模，轻量级解码器可以利用最新的观测数据将其转换为精确且动态一致的动作。

从人体运动中学习LDM包含两个阶段。首先，模仿接收观测值o并输出动作a的运动跟踪策略，在潜空间中获取运动表示。受先前工作【74】的启发，用条件变分自编码器（VAE）对参考运动进行编码，而不是使用常规VAE对原始PD动作进行编码，因为运动状态比原始动作更具结构性，更容易编码。编码器仅接收参考运动分量，生成一个潜表示 z = E(𝝍, e_anchor)，该表示捕捉运动意图。解码器随后将此潜表示与其他本体感觉输入相结合，以重建动作：

aˆ = D(z, [g, V_imu, 𝜽, 𝜽·, a_last]),

其中 g 表示在根坐标系中表示的投影重力矢量。随后，使用改进的ELBO损失L_ELBO，通过DAgger【75】训练VAE。

其次，将训练的VAE应用于人体运动，以收集轨迹并将每个动作编码为一个潜状态，从而得到用于LDM训练的状态-潜轨迹𝜏 = [s_𝑡−𝑁, z_𝑡−𝑁, …, s_𝑡 ,z_𝑡 ,…, s_𝑡+𝐻, z_𝑡+𝐻 ]。将先前的 LDM 模型调整为适用于这种状态-潜轨迹，并针对每个状态和潜变量 k= [𝑘_s_𝑡−𝑁, 𝑘_z_𝑡−𝑁, …, 𝑘_s_t, 𝑘_z_t, …, 𝑘_s_𝑡+𝐻, 𝑘_z_𝑡+𝐻] 使用单独的去噪步骤，从而允许在视界范围内对观测值和未来姿态进行不同程度的噪声修复。LDM 模型的训练是自监督的。给定一个干净的轨迹 𝜏 和均匀采样的去噪步数 k_𝑠_i, k_𝑧_i ∼ U(0, 𝐾)，训练去噪网络 𝑧_𝜙(𝜏^k, k) 通过最小化扩散损失 L_diffusion 从其噪声版 𝜏^k重建干净的轨迹。在推理阶段，轨迹的生成从高斯噪声开始，并使用以下公式进行迭代去噪：

𝜏^k= 𝛼_k(𝜏^k− 𝛾_k(𝜏^k− 𝑧_𝜙(𝜏^k, k)) ) + 𝜎_kN(0,I),

该公式逐步将样本去噪，得到一条干净且时间一致的状态-潜轨迹。最后，利用最新的观测数据，从当前去噪后的潜状态 z_𝑡 中解码出当前动作。

基于引导的在线优化

为了使上述训练的与任务无关的 LDM 在推理时适应特定任务，通过分类器引导进行在线优化。与其他学习显式数据分布的生成模型（例如 GAN 和 VAE）不同，扩散模型学习的是数据分布本身的梯度场，即得分函数 ∇𝝉 log 𝑝(𝝉)。基于此特性，可以通过应用贝叶斯规则将无条件得分函数转换为条件得分函数。

只要能够将条件梯度项 ∇𝝉 log 𝑝(𝝉∗ | 𝝉) 表示为可计算的形式，这种公式就能在推理时完全实现基于梯度的优化，而无需重新训练。为了实现这一点，用可微的、特定于任务的代价函数 𝐺(𝝉) 来近似条件似然，该代价函数量化采样轨迹满足任务目标的程度。通过将似然与该代价关联起来，即 𝑝(𝝉∗ | 𝝉) ∝ exp(−𝐺(𝝉))，条件梯度简化为

∇𝝉log𝑝(𝝉∗ |𝝉) = −∇𝝉𝐺(𝝉)

这种实用的公式使得扩散过程能够将任意可微代价函数作为优化目标，从而以无需训练、推理时的方式，灵活地控制各种未见过的任务，例如操纵杆控制、避障和运动修复。

运动跟踪

本文提出一种用于运动跟踪的 Actor-Critic 架构，如图所示。Actor 网络接收以下观测值：运动相位 𝝍、锚点位姿误差 e_anchor、IMU 扭转角 V_imu、相对关节位置 𝜽 − 𝜽⁰、关节速度 𝜽· 以及先前的动作 a_last。Critic 网络接收相同的观测值，此外还接收每个物体相对于锚点 𝑇_b 的相对位姿，这些位姿对应于一组期望的物体 𝑏 ∈ B_target。计算期望位姿和实际位姿及扭转角之间的位置 p、方向 𝑅、线速度 v 和角速度 𝝎 的跟踪奖励，并添加三个正则化项。仅对接触系数、关节偏移和躯干质心进行域随机化。

其中用多层感知器（MLP）作为策略网络，并使用PPO【88】作为强化学习算法。策略运行频率为50Hz。

运动跟踪策略部署到Unitree G1人形机器人上。所有部署代码均使用C++编写，并针对实时执行进行优化。用结合卡尔曼滤波器的一个底层广义动量观测器【89】以500Hz的频率提供全状态估计。值得注意的是，跟踪过程中未使用任何外部运动捕捉系统。

对于极端的、接触频繁的行为（例如，从地面起身），要么引入激光雷达惯性里程计（LIO）【90】进行位置校正，要么完全排除依赖于状态估计的观测。所有策略均在机器人CPU上使用ONNX Runtime【91】进行板载执行。每个推理步骤耗时不到1.0毫秒，从而可以无缝集成到实时估计和控制回路中。

查看全文

http://www.jsqmd.com/news/499659/