当前位置: 首页 > news >正文

【基于文本的运动生成text-to-motion】Hi-Motion: Hierarchical Intention Guided Conditional Motion Synthesis

Hi-Motion论文解读:从“直接生成动作”到“先生成运动意图”

导语

文本驱动的人体动作生成,是近年来生成式人工智能与具身智能交叉方向中的一个重要研究问题。它要求模型根据一段自然语言描述,生成一段与语义一致、时序连贯且结构自然的人体动作序列。表面上看,这像是一个“文本到动作”的跨模态映射任务,但真正落到建模层面时,会同时涉及语义理解、时序生成、骨架结构建模以及长序列稳定性控制等多个难点。

发表于CCF A类会议ACM MM 2025的论文Hi-Motion: Hierarchical Intention Guided Conditional Motion Synthesis,尝试从一个新的角度来重构这一问题:与其直接生成完整动作,不如先生成动作背后的高层运动意图,再由这些意图去引导完整骨架的合成。这一思路使得动作生成从“高维直接映射”转变为“层次化逐步生成”,也让整个任务具备了更强的结构先验和更好的可解释性。


一、论文试图解决什么问题?

现有的文本到动作生成方法,往往直接根据文本特征或潜在语义表示,生成完整的人体骨架序列。这类方法虽然在视觉效果和基准指标上已经取得了一定进展,但仍然普遍面临两个核心问题。

首先,是从语义到完整动作序列的映射空间过大。同一段文本通常可以对应多种合理动作形式,而完整骨架序列又具有较高自由度,这使得模型很难在高维空间中稳定地学习到准确映射。

其次,是自回归生成中的误差累积问题。很多方法采用逐帧生成策略,即当前帧依赖于前面已经生成的结果。一旦前面的某一帧出现偏差,这种误差就会在后续过程中被不断放大,最终导致动作不自然、关节不协调甚至语义漂移。

Hi-Motion 的切入点,正是在于重新思考“动作究竟应该如何生成”。论文作者认为,人体动作本身具有明显的层次结构:真正先决定动作整体趋势的,往往是少数几个关键关节;而其余关节更多是在这些关键趋势的引导下,补充局部细节。基于这一认识,论文提出先建模高层运动意图,再完成低层动作细化的两阶段生成框架。


二、论文的核心思想是什么?

Hi-Motion 最核心的思想,可以概括为一句话:

动作生成不应该从一开始就直接预测完整骨架,而应该先预测决定动作整体趋势的“高层意图”,再在此基础上生成完整动作。

围绕这一思想,论文把人体骨架划分为五个区域:躯干、左臂、右臂、左腿、右腿,并从中选取五个关键关节作为pivot joints(枢轴关节),分别是根节点、左肩、右肩、左髋和右髋。

在作者看来,这些关节的时序轨迹能够较好地表达动作的高层意图。比如,一个动作是“向前奔跑”“抬手投掷”还是“身体转向”,这些变化首先会体现在躯干、肩部和髋部的整体运动趋势上,而不一定首先体现在手腕、脚踝等末端关节上。

因此,Hi-Motion 并不直接从文本去生成所有关节,而是先生成这些枢轴关节的运动轨迹,再把这些轨迹作为“意图信号”,去引导完整骨架序列的合成。通过这种方式,原本困难的高维骨架生成,被拆解成了“低维全局趋势建模”和“高维局部细节合成”两个更容易处理的子问题。


三、这篇论文有哪些关键创新?

1. 提出层次化动作表示

论文首先提出了一种层次化的动作表示方式。与只使用根节点轨迹来表达整体运动的方法不同,Hi-Motion 同时建模多个枢轴关节的时序轨迹。这样做的原因在于,很多动作之间的差异,并不主要体现在人物整体的位移路径上,而体现在肩、髋及四肢协同方式的差异上。

这种多枢轴关节的表示方式,相比单一根节点轨迹,能够更完整地表达动作的高层语义结构,也为后续的动作细化提供了更可靠的先验。

2. 用 Bézier 曲线参数化枢轴关节轨迹

第二个创新点,是论文没有直接回归枢轴关节的整条轨迹,而是采用高阶 Bézier 曲线对轨迹进行参数化建模。

这一设计非常关键。因为真实人体关节轨迹虽然复杂,但并非完全任意,而是受到人体拓扑结构和局部协同运动的约束。与其让模型逐时刻预测所有轨迹点,不如让它先预测少量控制点,再由这些控制点生成整条平滑轨迹。

这样做至少带来两个好处:一是显著降低了建模难度;二是让轨迹更平滑自然,减少了直接回归中常见的抖动和突变问题。

3. 将骨架生成建模为图节点变换

第三个创新点,体现在骨架生成方式上。论文指出,人体骨架在不同时间帧中,边连接关系本身是固定的,真正变化的是各关节节点的状态。因此,完整骨架的逐帧生成可以被看成一个“确定边连接条件下的图节点变换问题”。

基于这一认识,Hi-Motion 在生成每一帧骨架时,不是简单地做向量回归,而是显式利用骨架图结构,将高层运动意图编码进图节点特征,再通过图卷积与时序模块进行节点状态更新。这样不仅充分利用了人体骨架的结构先验,也增强了长序列生成时的稳定性。


四、方法是如何实现的?

从整体框架上看,Hi-Motion 可以分为两个主要部分:动作嵌入模块层次化动作合成模块

1. 动作嵌入模块

在动作嵌入阶段,论文使用预训练的CLIP作为文本编码器,用图卷积结构对动作进行编码,并借助 VQ-VAE 学习离散潜在表示。这样做的目的,是在文本和动作之间建立共享或对齐的潜在语义空间,为后续生成提供稳定的语义条件。

2. 高层运动意图生成

在得到潜在表示之后,模型首先进入“高层意图生成”阶段。这里,Hi-Motion 利用 Bézier Decoder 预测五个枢轴关节轨迹对应的控制点,然后根据 Bézier 曲线公式重建出这些枢轴关节的完整时序轨迹。

也就是说,模型先生成的并不是完整动作,而是一组较低维、较平滑、能够表达整体趋势的运动意图。

3. 意图引导的骨架合成

在第二阶段,模型再根据这些高层意图,逐帧生成完整骨架。

论文将传统自回归生成写为:

P(M|z)=P(s_1|z)\prod_{t=2}^{\ell}P(s_t|s_{<t},z)

其中,z是潜在特征,s_t表示第t帧骨架。这个公式也揭示了传统方法的问题:每一帧都依赖前序结果,误差容易不断累积。

为缓解这一问题,Hi-Motion 在生成当前帧时额外引入运动意图I,希望满足:

P(s_i|z,I) > P(s_i|z)

其直观含义是:如果模型在生成当前帧时,不仅知道语义潜在特征,还知道当前时刻应该朝什么方向运动,那么该帧的生成难度就会降低,结果也会更稳定。

具体来说,第k个枢轴关节在第i帧的运动意图定义为:

I_k[i]=\overrightarrow{t_{i-1}^k t_i^k}

即该关节在相邻两个时刻之间的位移向量。

随后,模型把上一帧骨架、潜在语义特征以及当前运动意图融合为图节点特征。对于属于枢轴关节集合的节点,会显式注入意图信息;对于其他节点,则主要依赖上一帧状态和潜在特征。最后,经图卷积、全连接层和 LSTM 处理后,输出当前帧骨架。

4. 训练目标

论文的生成损失写为:

L_{gen}=L_{Bezier}+\omega L_{ske}

其中,L_{Bezier}用于监督枢轴关节 Bézier 控制点的预测,L_{ske}用于约束骨架重建精度与时序平滑性。通过这种联合训练方式,模型同时学习“高层意图如何表达”和“低层骨架如何在意图引导下生成”。


五、这篇论文的价值体现在哪里?

从研究思路上看,Hi-Motion 的价值并不只在于提出了一个性能更好的模型,更重要的是,它为文本驱动动作生成提供了一种更符合人体运动规律的建模方式。

过去很多方法把动作生成理解为“从文本直接映射到完整骨架序列”,而 Hi-Motion 则强调动作本身具有层次结构,应先建模决定整体趋势的高层意图,再生成局部细节。这样的分解,让模型不必一开始就在高维动作空间里“盲目搜索”,而是在结构先验的约束下逐步完成生成。

从方法设计上看,论文把三件事情自然地串联起来:层次化表示、参数化轨迹建模以及图结构骨架生成。这三部分并不是孤立拼接,而是共同服务于“先意图、后动作”的核心逻辑。

从潜在应用上看,这种“高层意图—低层执行”的思想,也不只适用于文本到动作生成。它同样可能对机器人控制、动作预测、虚拟人驱动乃至更广义的具身智能任务产生启发。因为在这些任务中,系统往往也需要先确定整体行为趋势,再执行局部动作细节。


六、仍有哪些值得思考的地方?

尽管 Hi-Motion 提供了一个很清晰、也很有启发性的框架,但它也留下了若干值得继续思考的问题。

首先,目前的层次划分方式仍然是人工设定的。五个枢轴关节的选择符合人体解剖结构,也有较强直觉合理性,但未来是否能够由模型自动学习出更优的层次表示,仍然是一个值得探索的方向。

其次,Bézier 曲线对于平滑轨迹的建模非常有效,但面对某些高频、剧烈、突发性的动作变化时,是否仍然足够灵活,还需要更多验证。

再次,论文主要在文本到人体动作生成任务上进行了验证。未来如果将这一框架扩展到更复杂的控制条件、多人物交互动作,或者与物理约束结合的动作生成场景,其表现如何,也值得进一步研究。


七、总结

总体来看,Hi-Motion 是一篇思路非常清楚的工作。它没有单纯依赖更大的模型或更复杂的训练技巧去提升动作生成质量,而是从任务结构本身出发,重新组织了“文本—意图—动作”的生成链条。

如果用一句话概括这篇论文的核心启发,那就是:

在复杂动作生成中,先建模运动意图,再生成动作细节,可能比直接生成完整动作更自然、更稳定,也更具可解释性。

这也是 Hi-Motion 最值得关注的地方。它提醒研究者,生成模型的提升,不一定只来自更强的拟合能力,也可能来自对问题结构更合理的拆解与表达。


参考论文

Hi-Motion: Hierarchical Intention Guided Conditional Motion Synthesis
ACM Multimedia 2025
DOI:10.1145/3746027.3755020

http://www.jsqmd.com/news/638097/

相关文章:

  • 基于FunASR的智能语音助手搭建:WebUI界面操作,支持实时对话
  • AI Agent vs 区块链:哪个才是真正的风口
  • 使用CNN增强cv_resnet50_face-reconstruction的边缘细节处理
  • Leather Dress Collection 与Visio结合:从文本描述自动生成系统架构图
  • 智能垃圾桶项目避坑指南:STM32驱动舵机、语音模块的那些‘坑’与解决方案
  • 408代码题拿分秘籍:暴力解法真的比你想的更有用(附历年真题实战)
  • 前端开发者必看:html-to-image 终极指南 - 轻松将网页元素转为高清图片
  • 0代码AI开发多品牌交换机配置备份系统 BS架构 Python
  • AI Agent开发学习顺序:工具调用到完整交付
  • 软件测试(黑马)
  • linux驱动编程2 : uboot、Linux内核、rootfs来源及制作流程
  • Qwen3.5-2B目标检测新思路:辅助YOLOv5提升小目标识别精度
  • 【DAY38】ARM 架构嵌入式开发核心:最小系统设计、Linux 驱动与系统烧写要点总结
  • HEIF Utility:突破Windows平台HEIF格式兼容性壁垒的一站式解决方案
  • 从查重焦虑到降重自由:Paperxie,本科生论文通关的「隐形导师」
  • 保姆级教程:在Simulink里用Three-Phase Fault模块模拟VSG并网线路故障(含单相接地/两相短路)
  • Go语言的sync.Map原子操作与读复制更新在并发写少场景下的设计
  • AIVideo问题解决指南:部署配置、环境变量修改常见问题汇总
  • Llama Factory部署教程:简单几步搭建大模型微调环境
  • 让能源生产融入日常风景——零碳园区光伏+智慧设施集成应用
  • 行为发生的完整机制与统一公式(新版稿2026年4月1)
  • YOLOv11改进:检测头篇 | 红外小目标 | CAMixing + P2头:卷积-注意融合模块和多尺度提取能力
  • VMagicMirror终极指南:5步打造你的虚拟形象直播助手
  • python netCDF4
  • B站缓存视频解锁指南:3步将m4s转换为通用MP4格式
  • CoPaw创意图像描述生成:从抽象概念到具体画面的效果展示
  • 下一代防火墙通用原理
  • SpringBoot微服务集成Phi-4-mini-reasoning指南:构建智能业务逻辑层
  • AI智能体视觉检测系统(TVA)工作原理系列(十六)
  • AI Agent 要抢测试工程师的饭碗了?我测了一下,结论出乎意料