当前位置：首页 > news >正文

SceMoS：基于2D场景表示的文本驱动3D人体运动合成框架

news 2026/6/15 2:56:44

SceMoS是一个创新的3D人体运动合成框架，它通过结构化2D场景表示实现了文本驱动的场景感知运动生成。这个框架的核心思想是将全局运动规划与局部物理执行解耦，从而在保持运动真实性的同时显著降低计算成本。

在虚拟现实、动画制作和机器人控制等领域，生成符合语义意图且物理可行的人体运动是一个关键挑战。传统方法面临两个主要问题：

现有解决方案通常依赖计算密集的3D表示（如点云、体素网格），导致模型复杂度高且难以扩展。SceMoS的创新之处在于发现经过精心设计的2D场景表示可以同时满足语义理解和物理约束的需求。

SceMoS采用两阶段架构，明确分离全局规划与局部执行：

全局运动规划器：
- 输入：文本指令 + 场景鸟瞰图(BEV)
- 输出：离散运动token序列
- 关键技术：基于DINOv2的BEV特征提取，自回归Transformer
几何基础运动分词器：
- 输入：运动token + 局部高度图
- 输出：连续3D运动序列
- 关键技术：条件VQ-VAE，高度图条件解码

这种解耦设计使得模型可以分别优化高层语义理解和低层物理交互，避免了传统端到端方法的复杂性。

SceMoS使用两种互补的2D表示：

BEV图像：
- 从场景高处角落渲染的RGB图像
- 使用DINOv2提取语义特征
- 优势：捕捉空间布局和主要物体位置关系
- 分辨率：通常512×512像素
局部高度图：
- 围绕角色根关节的2D高度场
- 网格尺寸：32×32（覆盖±0.6米范围）
- 优势：精确表征接触表面几何
- 更新频率：每帧或每N帧更新

关键设计选择：32×32高度图在细节保留和计算效率间取得最佳平衡。实验表明，16×16会丢失细节，64×64则引入冗余噪声。

规划器采用Transformer架构，关键参数：

训练目标函数：

L_plan = -Σ log P(z_i=z*_i|Z_<i, F_text, F_dino)

使用分类器无关引导(CFG)增强条件鲁棒性，随机丢弃率设为0.1。

VQ-VAE关键组件：

编码器E：
- 输入：80帧运动序列(4秒，20fps)
- 架构：1D时序卷积+残差块
- 下采样率：4→20 tokens
码本C：
- 大小：1024
- 维度：512
- 更新策略：EMA+重置机制
解码器D：
- 特殊设计：高度图条件输入
- 损失函数：
```
L_VQ = λ_rec L_rec + β||sg[Z_q]-Z||²
```
  其中λ_rec=1.0，β=0.1

为解决foot sliding问题，设计轻量级回归器：

损失函数：

L_traj = λ_r||t_δ-t^_δ||_1 + λ_v||Δt_δ-Δt^_δ||_1

取λ_r=λ_v=1.0

指标	SceMoS	TRUMANS[23]	Humanise[59]
FID↓	0.31	0.34	0.82
接触分数↑	0.98	0.98	0.96
平均穿透↓(mm)	1.81	1.83	1.95
参数数量(M)	~4	~86	~55

关键发现：

高度图分辨率影响：
- 16×16：MPJPE=21.48mm
- 32×32：MPJPE=21.88mm（最优）
- 64×64：MPJPE=22.56mm
场景融合策略比较：
- 特征拼接：MPJPE=21.88mm
- FiLM调制：MPJPE=27.89mm
- 交叉注意力：MPJPE=22.86mm
轨迹优化模块贡献：
- 移除后：foot sliding增加37%
- 保留时：接触稳定性提升19%