28倍加速!北大新作Spark3R:无需训练,加速前馈3D重建模型,兼容VGGT、π3 、DepthAnythingV3!
点击下方卡片,关注「3D视觉工坊」公众号
选择星标,干货第一时间送达
来源:3D视觉工坊
「3D视觉从入门到精通」知识星球(点开有惊喜) !星球内有20多门3D视觉系统课程、3DGS独家系列视频教程、顶会论文最新解读、海量3D视觉行业源码、项目承接、求职招聘等。想要入门3D视觉、做项目、搞科研,欢迎加入!
论文信息
标题:Spark3R: Asymmetric Token Reduction Makes Fast Feed-Forward 3D Reconstruction
作者:Zecheng Tang, Jiaye Fu, Qiankun Gao, Haijie Li, Yanmin Wu, Jiaqi Zhang, Siwei Ma, Jian Zhang
机构:Peking University
论文:https://arxiv.org/abs/2605.06270
导读
基于视觉变换器的前馈式3D重建模型能够直接从少量输入图像中估算出场景的几何结构及相机的姿态。不过,当处理包含数百或数千帧的视频数据时,由于全局注意力层的计算成本较高,这种模型的效率就变得很低。最近出现的令牌合并技术通过压缩全局注意力层中的令牌序列来提升模型效率,但该技术对查询令牌和键值令牌采用统一的压缩方式,而忽略了它们在3D重建过程中所扮演的不同角色。在这项研究中,我们发现了前馈式3D重建模型的一个重要特性:查询令牌用于编码与特定视角相关的几何信息,因此对压缩比较敏感;而键值令牌则用于表示共享的场景信息,因此可以承受更强的压缩处理。基于这一认识,我们提出了Spark3R这一无需额外训练的加速框架。该框架通过为查询令牌和键值令牌设定不同的压缩比例来实现有效的加速效果。同时,我们对查询令牌采用组内合并处理,而对键值令牌则进行简单的剪枝处理。此外,Spark3R还能根据不同层次的需求动态调整键值令牌的压缩比例,从而进一步优化性能与效率之间的平衡。作为一种即插即用的框架,Spark3R可以直接应用于多种预训练好的前馈式3D重建模型中,比如VGGT模型。在处理1,000帧数据的场景中,能够提升处理速度,同时仍能保持出色的重建质量。
效果展示
VGGT中不同标记角色的压缩敏感性。我们分别对查询标记橙色)、键值标记(蓝色)以及两者共同压缩(红色)进行压缩,并报告姿态误差(ATE)。键值标记能够承受较为激进的压缩操作而质量损失微乎其微,而查询标记则在压缩因子达到12之后急剧退化。联合均匀压缩所产生的曲线最为陡峭。下方:压缩因子为16时的点云重构效果。
引言
从多视角图像恢复三维几何的传统方法依赖于逐场景优化流程,例如运动恢复结构(Structure-from-Motion, SfM)和多视角立体视觉(Multi-View Stereo, MVS)。近年来提出的神经场景表示方法,包括 NeRF 和 3D Gaussian Splatting,仍然延续了这种逐场景范式,并需要大量计算开销。与逐场景优化方法不同,前馈式三维重建能够从未经位姿标定的一组图像中,通过一次前向传递直接恢复出密集的场景几何和相机位姿,在自动驾驶、机器人以及多模态三维场景理解中具有广泛应用。当前最先进的模型如 VGGT、π³ 和 Depth-Anything-3 通过全局注意力层联合处理所有输入帧来实现这一目标。虽然这种联合处理能够在任意数量的帧之间实现精确的几何一致性,但全局注意力层的计算成本随帧数呈二次增长,使得将其扩展到包含数百或数千帧的视频长度输入时成本过高。
流式处理方法通过顺序处理来规避这一成本,但放弃了跨帧的联合推理,通常会降低重建质量。分块对齐策略将输入划分为固定大小的块,将模型自身的跨帧推理限制在每个块内部,并依赖事后对重叠帧的对齐来恢复全局一致性。这两类工作都是通过限制哪些帧之间可以交互来获得效率提升,而不是加速全局注意力层本身。
令牌合并方法提供了一种更直接的策略,它不限制哪些帧之间可以交互,而是在全局注意力层内部压缩序列长度,从而以更低的成本让所有帧彼此可见。然而,这些方法对所有令牌角色应用单一的、统一的缩减因子,导致在重建质量明显下降之前,加速比最多只能达到约 10 倍。我们推测这一上限源于忽略了全局注意力层中查询令牌与键值令牌在功能上的不同作用。
为了验证这一假设,我们在逐渐增大的缩减因子(原始序列长度与缩减后序列长度之比)下,分别压缩查询令牌、键值令牌以及两者同时压缩,并在 VGGT 上测量由此产生的位姿误差。如图 1 所示,仅压缩键值令牌时误差保持相对平缓,而仅压缩查询令牌则导致误差急剧上升。现有令牌合并方法所采用的联合统一压缩策略,其曲线最为陡峭:它继承了查询令牌的全部敏感性,却未能利用键值令牌的高度可压缩性。这种显著的不对称性揭示了统一压缩方法未能开发的巨大潜在空间。
主要贡献
我们提出了 Spark3R,一个无需训练、即插即用的加速框架,该框架将查询令牌和键值令牌的压缩解耦。我们的主要贡献如下:
我们为前馈式三维重建模型提出了非对称令牌缩减策略,该策略为查询令牌和键值令牌分别分配不同的缩减因子和独特的压缩算子:对查询令牌采用组内令牌合并,对键值令牌采用轻量级令牌剪枝。
我们引入了一种层自适应键值缩减调度,对经验上不敏感的层分配更高的压缩比例,从而进一步优化了质量与效率的权衡。
我们证明了由此产生的框架 Spark3R 可以直接集成到 VGGT、π³ 和 Depth-Anything-3 中,无需重新训练,在 1000 帧的输入上可实现高达 28 倍的加速,同时保持有竞争力的重建质量。
方法
我们提出了 Spark3R,一个包含三种互补设计的令牌压缩框架,如图 2 所示。第一,非对称令牌缩减为查询令牌和键值令牌分配不同的缩减因子,反映了它们对压缩的不同敏感性。第二,针对每种令牌类型定制专门的压缩算子:对查询令牌采用组内令牌合并,对键值令牌采用轻量级令牌剪枝。第三,层自适应键值缩减调度根据每个全局注意力层对压缩的实测敏感性,调整其键值缩减因子。
实验结果
A. 点图估计
我们在 7-Scenes 和 NRGBD 数据集上评估了场景级点图估计,使用了三个标准指标:准确度(Acc)、完整性(Comp)和法向一致性(NC)。结果如表 I 所示。
在所有三个基础模型上,Spark3R 在 7-Scenes 和 NRGBD 上将推理时间减少了 17 到 28 倍,同时在两个数据集上都与未加速基线的重建质量非常接近。将 Spark3R 应用于 DA3 和 π³ 后,所有三个指标与各自基线的差距均在可忽略的范围内,这证实了非对称令牌缩减带来的质量下降极小。值得注意的是,Spark3R+VGGT 相比未加速的 VGGT 有显著提升:在 7-Scenes 上,平均准确度从 0.047 提升到 0.017,平均完整性从 0.035 提升到 0.020。我们将此归因于轻量级键值剪枝带来的上下文缩减:随着输入序列增长,VGGT 的全局注意力必须将固定的注意力预算分配到所有令牌上,不可避免地稀释了每个令牌的注意力质量。通过压缩键值令牌,Spark3R 将有效上下文保持在一个注意力更鲁棒地运作的范围内,从而产生更清晰的几何结构。
与之前的加速方法相比,Spark3R 实现了更优的质量-速度权衡。FastVGGT 的速度比 Spark3R+VGGT 慢大约 6 倍,同时重建质量相当或更低。ZipMap 在 7-Scenes 上达到了相近的推理时间,但在 NRGBD 上明显落后,并且需要大量的重新训练和更大的模型。流式处理方法 CUT3R 和 TTT3R 比 Spark3R+VGGT 慢了近 2 倍,并且由于缺乏全局跨帧推理,重建质量大幅降低。
B. 相机位姿估计
我们在 TUMdynamics、ScanNet 和 Sintel 数据集上评估了相机位姿估计,报告了绝对轨迹误差(ATE)以及平移相对位姿误差(RPEt)和旋转相对位姿误差(RPEr),所有误差均在 Sim(3) 对齐后计算。结果如表 II 所示。
在两个长序列数据集上,Spark3R 提供了高达 28 倍的加速,同时在所有三个基础模型上保持或提高了位姿精度。将 Spark3R 应用于 DA3 和 π³ 后,在所有指标上都与其各自基线非常接近。Spark3R+VGGT 在 ScanNet 上再次显著优于未加速的 VGGT(ATE 从 0.156 降至 0.065),这与第 V-A 节中讨论的注意力稀释效应一致。
在 Sintel 数据集上,序列最多包含 50 帧,远低于全局注意力成为瓶颈的范围。Spark3R 的长度自适应调度相应地将两个基础缩减因子设置为 rQ=1 和 rKV=1,但该方法并非无效操作:不敏感层通过层自适应调度仍然会获得提升后的因子 3(rKV=3)。在这些短序列上质量匹配,证实了层自适应机制本身的独立有效性。
在两个长序列数据集上,Spark3R+π³ 和 Spark3R+DA3 实现了与 ZipMap 相当或更优的位姿精度,而 FastVGGT 的速度仍比 Spark3R+VGGT 慢 6 倍以上,且位姿精度相当或更低。流式方法 CUT3R 和 TTT3R 在所有方法中大幅落后。
C. 视频深度估计
我们在 Bonn、KITTI 和 Sintel 数据集上评估了视频深度估计,这些数据集分别涵盖室内、室外和合成场景。我们采用绝对相对误差(Abs Rel)和阈值准确率 δ < 1.25 作为评估指标。预测的深度图通过每序列的尺度和偏移与真实值对齐。结果如表 III 所示。
Spark3R 在所有三个基础模型上持续保持了深度精度,加速比随序列长度变化:在 Bonn(平均 623 帧)上实现了 13 到 18 倍加速,Abs Rel 变化最多为 0.002;在 KITTI(平均 264 帧)上实现了 4 到 6 倍加速,Abs Rel 差异在 0.001 以内。在 Sintel(平均 46 帧)上,两个基础缩减因子默认为 1;深度精度的匹配进一步证实了第 V-B 节中提到的层自适应机制的独立优势。π³ 仍然是深度精度最强的基础模型,而 Spark3R+π³ 在保持这一优势的同时,成为了整体速度最快的变体。FastVGGT 在 Bonn 和 KITTI 上比 Spark3R+VGGT 慢大约 5 到 8 倍,且没有显著的质量提升;流式方法 CUT3R 和 TTT3R 在所有前馈式方法中深度精度落后。ZipMap 在 Bonn 上实现了与 Spark3R+VGGT 相似的吞吐量,但在速度和精度上都落后于 Spark3R+π³。
总结 & 未来工作
我们介绍了 Spark3R,一个用于前馈式三维重建模型的无需训练、即插即用的加速框架。Spark3R 对查询令牌应用保守的组内令牌合并,对键值令牌应用激进的轻量级令牌剪枝,并进一步集成了层自适应键值缩减调度。Spark3R 可直接集成到 VGGT、π³ 和 Depth-Anything-3 中,在 1000 帧的输入上实现高达 28 倍的加速,同时在多种基准测试中保持有竞争力的重建质量。
局限性与未来工作。作为一个无需训练的框架,Spark3R 继承了其基础模型的质量上限:它可以通过缓解注意力稀释来保持或改善预测结果,但无法弥补内在的失效模式。将基础模型与 Spark3R 联合微调,使其适应压缩后的令牌序列,是一个有前景的未来工作方向。
对更多实验结果和文章细节感兴趣的读者,可以阅读一下论文原文~
本文仅做学术分享,如有侵权,请联系删文。
3D视觉方向论文辅导来啦!可辅导SCI期刊、CCF会议、本硕博毕设、核心期刊等。
添加微信:cv3d001,备注:姓名+方向+单位,邀请入群。
