多视角视频扩散策略:一种三维时空-觉察视频动作模型
26年4月来自中科院自动化所、中科院大学、中科第五纪公司(FiveAges)、清华、西交大、武汉大学和南京大学的论文“Multi-View Video Diffusion Policy: A 3D Spatio-Temporal-Aware Video Action Model”。
机器人操作需要理解环境的三维空间结构及其时间演化,然而大多数现有策略往往忽略其中之一或两者。它们通常依赖于二维视觉观测和基于静态图像-文本对预训练的主干网络,导致数据需求量大,且对环境动态的理解有限。为了解决这个问题,提出MV-VDP,一种多视角视频扩散策略,它能够联合建模环境的三维时空状态。其核心思想是同时预测多视角热图视频和RGB视频,从而:1)使视频预训练的表示格式与动作微调保持一致;2)不仅明确机器人应该采取哪些动作,还预测环境如何响应这些动作而演化。大量实验表明,MV-VDP能够实现数据高效、鲁棒、泛化能力强且易于解释的操作。仅需十条演示轨迹,无需额外预训练,MV-VDP 即可成功执行复杂的真实世界任务,在各种模型超参数下均展现出强大的鲁棒性,能够泛化到分布外场景,并预测逼真的未来视频。在元世界和真实世界机器人平台上的实验表明,MV-VDP 的性能始终优于基于视频预测、基于 3D 以及基于视觉-语言-动作的模型,在数据高效的多任务操作方面树立了新的标杆。
如图 1 所示,提出多视角视频扩散策略(MV-VDP)。核心思想是,通过将视频预训练的表示格式与动作微调的表示格式相结合,可以实现时空状态建模。具体而言,MV-VDP:(1)采用三维感知的多视角投影来隐式编码空间结构;(2)利用这些投影将彩色点云转换为多视角 RGB 图像,并将机器人状态和动作表示为多视角热图;(3)利用统一的视频基础模型联合预测未来的视频和热图序列,随后将其解码为连续的动作块。通过在共享的表示空间内统一视频预测和动作微调,MV-VDP 显著缩小感知和控制之间的差距,从而获得了优异的实验性能。
如图所示,MV-VDP 流水线由三个主要部分组成。(a) 将点云和当前末端执行器姿态投影到空间感知的多视角RGB图像和热图上,并对其进行编码,然后通过视频扩散模型联合预测未来的多视角RGB视频和热图视频。预测的热图通过反投影恢复3D末端执行器位置。(b) 多视角视频扩散Transformer在预训练的视频扩散骨干模型的基础上,引入了视角注意机制,以实现跨视角交互。(c) 轻量级动作解码器从去噪后的视频潜信息中预测末端执行器的旋转和夹爪状态。最终的动作块由预测的位置、旋转和夹爪状态组合而成。
多视图投影
MV-VDP 以点云和机器人末端执行器位姿作为原始输入。由于冗余的点云信息会对后续模型训练产生负面影响 [39],首先将输入的点云裁剪到工作空间边界内,该工作空间定义为一个 1 m³ 的立方体区域。
并不直接处理裁剪后的点云,而是通过正交投影将其投影到三个固定视图上 [44, 45]。投影平面可以灵活选择,唯一的原则是目标区域应尽可能清晰可见。
对于末端执行器位姿,不使用单独的模块对其进行编码,而是将其转换为与投影视图对应的多个热图。着色后,这些热图可以直接由视频基础模型 (VFM) 的 VAE 编码器进行处理。直觉是,利用预训练模型的现成组件可以缩小表征差距,并更好地利用预训练知识。
为了构建热图,首先确定末端执行器在每个投影视图上的对应像素位置。在这个阶段,获得当前的多视角 RGB 图像和相应的多视角热图图像,并将它们输入到多视角视频扩散Transformer中,以预测未来的多视角视频和热图序列。
多视角视频扩散
多视角视频扩散变换器基于 Wan2.2 [47] 构建,Wan2.2 是一个 5B 参数的视频基础模型,最初在单视角视频数据集上进行预训练。为了将其扩展到多视角设置,为每个DiT模块 [48] 添加一个视角注意模块 [49],如图 2 (b) 所示。
在前向传播过程中,输入的多视角 RGB 图像和多视角热图图像使用预训练的 VAE 编码器编码为潜表示。然后,这些潜表示沿视角维度进行拼接,接着在空间和时间维度上进行分块和展平。此过程生成形状为 (B, V, T × H × W, C) 的标记序列,其中 B 表示批次大小,V 表示视角数,T 表示时间长度,H 表示高度,W 表示宽度,C 表示通道数。
为了容纳视图注意模块,token序列被重塑为 (B, T, V×H×W, C) 结构,从而在每个时间步实现跨视图的显式交互。应用视图注意后,tokens被重塑回其原始布局,并由剩余的 Transformer 层进行处理。所有其他组件均与原始 Wan2.2 架构保持一致,以最大程度地减少对预训练知识的干扰。
Transformer 经过训练以预测新增噪声,从而实现多步去噪以恢复干净的潜表示。生成的潜表示由 VAE 解码器解码,生成后续的多视图 RGB 视频和热图视频,这些视频随后用于动作解码。
动作解码
获得预测的热图序列后,用已知的相机参数,将每个时间步三个热图的峰值位置反投影到工作空间中的三维位置。通过对所有预测时间步的热图进行反投影,恢复连续的三维末端执行器轨迹。
对于旋转和夹爪预测,如图 (c) 所示,以去噪后的潜表示作为输入。由于潜表示已被 VAE 进行时间压缩,首先沿时间维度对其进行上采样。然后,分别使用两个卷积网络从整个潜表示中提取全局特征,以及从热图峰值位置附近提取局部特征。这些特征被融合,并沿视图维度进一步聚合。
对应于第一帧的潜表示作为条件潜表示。在预测的潜表示和条件潜表示之间应用交叉注意机制,以融合条件信息。最终得到的表征由一个轻量级的四层Transformer进行编码,随后由两个独立的MLP头分别用于预测旋转和夹爪动作。旋转和夹爪状态被离散化,预测它们在每个未来时间步相对于条件帧的变化。
训练与推理
MV-VDP由两个可训练模块组成:(i)一个5B的多视角视频扩散Transformer,用于预测末端执行器位置;(ii)一个轻量级的1.7亿像素旋转和夹爪预测器,用于估计旋转和夹爪状态。
训练。在训练过程中,首先对输入的点云和末端执行器姿态应用SE(3)增强,然后再将其投影到多视角RGB图像和热图上。这些表示由共享的VAE编码器编码,并沿视角维度进行拼接。
为了训练多视角视频DiT,向未来帧的潜表示中添加高斯噪声,噪声幅度由随机采样的扩散时间步长决定。然后,用均方误差(MSE)损失训练模型来预测注入的噪声。由于同时预测视频和热图序列,因此多视角视频DiT的总训练损失由两部分组成:
L_diff = λL_vid + (1 − λ)L_heat,
其中,L_vid是视频序列的扩散损失,L_heat是热图序列的扩散损失,λ是应用于视频扩散损失的权重。为了降低计算成本,采用了LoRA微调。虽然也尝试全微调,但并未观察到性能提升。
为了训练旋转和夹爪预测器,用真实视频潜变量和热图潜变量作为输入。为了增强鲁棒性,在真实潜变量中注入少量随机噪声。训练目标包括末端执行器的旋转和夹爪状态。旋转用欧拉角表示,离散化为72个区间(对应于5°分辨率),而夹爪状态则建模为二元变量。该模块使用交叉熵损失进行训练,公式如下:
L_pred = L_rol + L_pit + L_yaw + L_gri,
其中,L_rol、L_pit和L_yaw分别表示预测三个欧拉角的损失,L_gri表示预测夹爪状态的损失。
推理。在推理过程中,以当前时间步的点云和末端执行器位姿作为输入,并将它们投影到多视图RGB图像和热图上,然后进行编码以获得条件潜变量。未来帧的潜变量用随机噪声初始化。用多视图DiT迭代地对未来潜变量进行去噪,同时保持条件潜变量不变。
获得预测的干净潜变量后,通过两个并行分支对其进行解码。一个分支将潜变量解码为多视图热图序列,然后进行反投影以恢复3D位置预测。另一个分支将潜变量输入到旋转和夹爪预测器中,以估计旋转和夹爪状态。通过结合预测的位置、旋转和夹爪状态,得到动作块,这些动作块随后由机器人控制器执行。
元世界实验
设置。元世界 [18] 是一个标准化的仿真基准测试,包含多种桌面操作任务,物体和目标配置随机化。所有任务均使用一个带有固定向下夹爪的 6 轴模拟 Sawyer 机械臂执行,从而形成一个四维动作空间(末端执行器位移和夹爪开合)。在七个元世界任务上对 MV-VDP 进行了全面评估,每个任务使用五个视频演示(共 35 个演示)。每个策略在每个任务上进行 25 次试验,每次试验均采用随机初始化,成功定义为在 600 步内达到特定任务的目标。
基线。将方法与标准的行为克隆和基于视频预测的基线进行比较。BC-Scratch 和 BC-R3M [50] 是基于 ResNet-18 视觉编码器和 CLIP 文本编码器构建的多任务行为克隆基线,其中 BC-R3M 使用 R3M 预训练权重进行初始化。扩散策略 (DP) [7] 使用基于扩散的公式对动作序列进行建模。基于视频预测的基线模型包括 UniPi [26]、AVDC [29]、Track2Act [30] 和 DreamZero [37]。UniPi、AVDC 和 Track2Act 分别预测未来的 RGB 帧、光流和二维点轨迹,然后从这些预测的视觉表示中推断动作。DreamZero 是一种先进的视频动作模型,它也采用 Wan [47] 作为其骨干网络,联合预测未来的 RGB 视频和相应的动作。
真实世界实验
实验设置。如图所示,用配备平行爪夹爪的 Franka Research 3 机械臂和三个用于采集彩色点云的 ZED 2i 静态深度相机,在真实世界的桌面操作任务中评估 MV-VDP 的性能。
评估 MV-VDP 在三个基础操作任务上的性能:(i) 简单的抓取放置任务(放置狮子),(ii) 复杂的推动 T 形积木任务(推动 T 形积木),以及 (iii) 接触频繁的舀取任务(舀取玉米饼)。为了评估泛化能力,对原始任务设置进行了修改,产生了四个之前未见过的任务:(1) Put-B:在放置狮子任务中,将一块视觉上不同的布料放置在桌面上;(2) Put-H:在放置狮子任务中,将目标狮子放置在一个 5.5 厘米高的盒子上;(3) Push-L:在推动 T 形积木任务中,关闭环境照明; (4)Scoop-C:玉米饼被塑料面条代替,代表一个未见过的物体类别。图 3 提供所有任务的可视化示例。
为了展示数据效率,用 SpaceMouse 进行远程操作,并使用 frankapy [51] 作为机器人控制界面,为每个任务收集了约 10 条专家轨迹。每个任务均进行 10 次试验。为了公平比较,拍摄每个测试场景,并手动调整了所有评估方法的环境设置。
基线方法。将方法与一些代表性方法进行比较,包括基于 3D 的策略、基于视频预测的方法和 VLA 模型。
• DP3 [39]:一种先进的 3D 视觉运动策略,它使用 MLP 对点云进行编码,并通过基于扩散的策略头预测动作。
• π0.5 [2]:一种在多样化数据上预训练的大规模视觉-语言-动作(VLA)模型,并使用流匹配解码动作。
• UVA [31]:一种基于视频预测的策略,它使用统一表示和双扩散头联合预测未来的视频和动作。
• BridgeVLA [45]:一种 3D 视觉-语言-动作(VLA)模型,它将点云投影到 3D 感知的多视图图像中,并预测用于动作解码的热图。
