当前位置：首页 > news >正文

CVPR‘26 Highlight开源 | VGGT并非全能？Dark3R：低光照条件下鲁棒的特征匹配和相机姿态估计！

news 2026/7/13 11:25:37

点击下方卡片，关注「3D视觉工坊」公众号
选择星标，干货第一时间送达

来源：3D视觉工坊

「3D视觉从入门到精通」知识星球(点开有惊喜) ！星球内有20多门3D视觉系统课程、3DGS独家系列视频教程、顶会论文最新解读、海量3D视觉行业源码、项目承接、求职招聘等。想要入门3D视觉、做项目、搞科研，欢迎加入！

论文信息

标题：Dark3R: Learning Structure from Motion in the Dark

作者：Andrew Y Guo, Anagh Malik, SaiKiran Tedla, Yutong Dai, Yiqian Qin, Zach Salehe, Benjamin Attal, Sotiris Nousias, Kyros Kutulakos, David B. Lindell

机构：University of Toronto、Vector Institute、York University、Sony Corporation of America、Harvard University、Purdue University

原文链接：https://arxiv.org/abs/2603.05330

代码链接：https://andrewguo.com/pub/dark3r

导读

我们推出了Dark3R，这是一个用于在低信噪比环境下从运动数据中重建结构的框架，可直接处理原始图像。分贝——这是传统特征提取和学习方法失效的领域。我们的核心思路是通过“师徒蒸馏”过程，将大规模3D基础模型适配到极低光照条件下，从而实现低光环境下的稳定特征匹配和相机姿态估计。Dark3R无需3D监督数据，仅通过含噪声与无噪声的原始图像对进行训练，这些图像可以对真实场景直接拍摄获得，或利用简单的泊松-高斯噪声模型对曝光良好的原始图像进行合成处理。为测试我们的方法，我们构建了一个新的、包含不同曝光级别的数据集42,000张带有真实3D标注的多视角原始图像，实验结果表明Dark3R在低信噪比环境下实现了最先进的结构与运动融合技术。此外，通过利用Dark3R预测的姿态以及粗细结合的辐射场优化算法，该技术在黑暗环境中实现了最先进的新型视图合成技术。

效果展示

Dark3R能够进行结构自运动分析以及从原始图像中合成新颖视图，这些图像是在低光照条件下拍摄的。(a)针对此场景，我们从不同视角拍摄了500张图像，并展示其中一部分及其信噪比。时间传感器噪声导致帧与帧之间出现明显的色彩变化，这在下排图像中尤为明显，从而进一步增加了问题的复杂性。(b)我们将这些图像应用于Dark3R，以恢复相机姿态和三维场景几何结构(我们展示的是预测姿态的部分结果)。(c)最后，我们引入了一种稳健的视图合成技术，该技术利用Dark3R预测的姿态以及一种粗至细的优化策略，来重构原本完全被噪声掩盖的精细外观细节。

现有的手工制作和数据驱动的特征匹配流程，如SuperGlue和 MASt3R在光线充足的环境下，性能表现稳定可靠(第一行)。但当图像信号-噪声比(SNR)降至低于-3dB(第二行)时，性能表现显著恶化。相比之下，Dark3R在两种成像模式下均稳健地识别出了对应点。绿色和红色线条分别表示对应点，其对称极线距离(SED)分别低于或高于两个像素。这是针对一组随机选取的20个疑似匹配点进行的分析。所有比赛中的平均SED值也一并公布。我们利用经过校准的相机内在参数以及从MASt3R在高信噪比图像对上的对应关系中预测出的基本矩阵来计算SED。

我们比较了Dark3R恢复的点云数据和相机姿态与MASt3R-SfM估算出的数据之间的差异。Dark3R能够生成更为精准的几何结构和相机轨迹，这些轨迹与通过运行COLMAP获得的参考解决方案更为吻合。

引言

被动式三维重建技术，例如立体视觉和运动恢复结构（SfM），已经发展了几十年，并且是现代从捕获或生成图像中重建外观和几何形状的框架的基础。然而，尽管这些被动式三维重建方法已经成熟并取得了广泛成功，它们在弱光条件下仍然会失效，因为在弱光条件下噪声会主导捕获的信号。我们试图通过实现在极端弱光环境——或者说图像信噪比远低于0 dB的情况下——鲁棒的SfM来解决这个问题。

传统的SfM方法通过一个多阶段流程联合恢复相机姿态和场景几何，该流程包括检测和匹配图像特征、估计对极几何、执行三角化以及使用光束法平差优化解。近年来，这个流程得到了显著改进——例如，基于学习的特征检测和匹配现在优于传统的手工设计技术，而可微分的RANSAC使得在存在外点的情况下能够更鲁棒地估计相机姿态。然而，尽管取得了这些进展，SfM流程在弱光条件下仍然会崩溃，因为噪声导致现有的特征检测和匹配技术失效。

更多近期的方法试图用基于视觉Transformer和大规模训练数据集的基础模型或端到端优化的神经体积场景表示来取代SfM流程。尽管这些方法通常能获得比传统SfM流程更高的重建质量，但它们难以泛化到弱光条件，因为低信噪比图像会产生虚假的局部最小值，或者偏离它们的训练分布。

将现有SfM技术应用于弱光环境的基本障碍在于，它们的特征提取模块，无论是手工设计的还是学习的，都会在存在显著噪声时失效。这种失效会传播到下游组件，如相机姿态估计和三角化。解决弱光SfM的一个可能方法是增加图像曝光时间；但如果没有三脚架固定的拍摄设置，手抖可能导致明显的运动模糊。另一种选择是将现成的降噪器应用于噪声低光图像，并将结果输入SfM方法。然而，这种简单的方法会产生不准确的结果，因为它无法保持多视图一致的图像特征。

主要贡献

在这里，我们引入了Dark3R，一个用于暗光环境下SfM的端到端框架。我们的关键洞察是将近期3D基础模型（如MASt3R）学习到的强先验知识适应到弱光环境。受师生知识蒸馏的启发，我们开发了一种训练策略，该策略将在良好曝光的原始图像对上由MASt3R预测的密集特征图，与在弱光原始图像对上由学生模型产生的特征图对齐。至关重要的是，Dark3R不需要任何3D监督；它仅使用成对的噪声-干净原始图像进行训练，这些图像可以直接捕获，也可以通过将简单的泊松-高斯噪声模型应用于良好曝光的原始图像来合成。训练Dark3R后，我们使用来自预测特征图的对应点，并遵循MASt3R-SfM[16]的全局优化和光束法平差阶段，从多视角、有噪声的原始图像中恢复相机姿态和稀疏深度图。

为了训练和评估Dark3R，我们引入了一个全新的、首创的数据集，包含约42,000张具有精确3D标注的多视角、包围曝光的原始图像，以及另外约20,000张涵盖近100个不同场景的高信噪比多视角原始图像。为了评估，我们提供了从高信噪比曝光中导出的参考3D标注，作为评估姿态精度的参考。使用这个数据集，我们证明了Dark3R能够在先前方法失败的地方实现准确的相机姿态和深度估计——因此，我们的工作为被动式3D传感的新应用开辟了弱光环境。此外，通过将Dark3R预测的姿态和深度与由粗到精的辐射场优化方案相结合，我们实现了在低信噪比设置下进行新视图合成的新能力。

方法

(a) Dark3R使用配对的干净和有噪声的原始图像进行训练。该模型从预训练的MASt3R网络的权重初始化，并使用低秩适应适应弱光条件。我们对编码器、解码器和输出头进行微调。我们通过最小化MASt3R在干净图像对上的编码器特征、解码器特征和对应点图与Dark3R在有噪声图像对上的预测之间的差异来监督训练。(b) 训练后，Dark3R预测的姿态和深度图通过由粗到精的优化过程，实现了暗光环境下的视图合成。渲染的新视图通过图像信号处理器处理以产生最终的sRGB输出。

实验结果

图4总结了我们三脚架捕获数据集中五个保留场景的六次包围曝光捕获下，姿态估计性能和光度质量与信噪比水平的关系。我们发现基线的性能会下降，特别是当信噪比水平低于0 dB时。尽管Dark3R的性能也随着信噪比的降低而下降，但其下降速度较慢。

我们在表1中展示了额外的定量结果，报告了在单个包围曝光设置下四个保留场景的平均指标值。对于这些场景，平均图像信噪比范围从-4.76 dB到-2.99 dB，性能趋势与图4一致。表1的前几行显示每个场景使用120张输入图像的结果，因为扩展到更多图像需要具有>48 GB显存的大型GPU。我们发现VGGT[61]和MASt3R-SfM是对Dark3R最具竞争力的方法，其中MASt3R-SfM的性能优于VGGT。MASt3R-SfM和Dark3R都可以在没有大型GPU的情况下扩展到500张输入图像。我们展示了在这种设置下的结果；我们发现，随着我们越来越依赖光束法平差来协调估计的姿态，而不是网络的先验知识，平均姿态精度略有下降。

图6比较了使用两种姿态估计方法和三种神经重建方法的新视图合成性能。对于每个目标信噪比，我们为五个测试场景中的每一个选择其平均信噪比最接近目标的曝光设置，然后对所有场景的平均信噪比和PSNR/LPIPS进行平均。将Dark3R-NeRF与来自良好曝光参考图像的MASt3R-SfM姿态和深度相结合的"oracle"配置，代表了可达到质量的上限。给定一个有噪声的输入原始图像序列，Dark3R-NeRF比使用RawNeRF或LE3D进行重建，或使用MASt3R-SfM进行姿态估计，能保持更多细节的新视图。

由于暗光环境下的时间噪声和传感器特定的逐通道缩放，我们观察到重建图像与参考图像之间存在未对准。我们使用重建图像对和参考图像对之间的中值计算每个通道的缩放和平移——受到单目深度估计中对齐策略的启发——然后评估对齐结果的PSNR。我们绘制了所有四个场景和包围曝光捕获的平均PSNR与图像信噪比的关系图，这表明随着信噪比的降低，我们的方法实现了持续较低的姿态和深度误差以及较高的重建质量。项目网页中包含了额外的视频比较。我们在表2所示的定性结果中看到了类似的趋势，其中我们评估了与表1相同的包围曝光设置在保留数据集上的性能。

总结 & 未来工作

Dark3R为在先前方法失败的弱光环境下进行SfM开辟了新的可能性。我们的结果指出了未来研究的几个有希望的途径。一个方向是使用大规模架构将我们的框架扩展到前馈预测，尽管这可能需要调整其辅助编码器以兼容原始的低信噪比图像。另一个方向是建立在动态三维重建近期工作的基础上，可能实现在暗光下捕获的动态场景的SfM。除了这些扩展之外，整合生成先验可以进一步提高对极端黑暗的鲁棒性。总的来说，我们相信这一研究方向为在传统上被认为被动视觉无法企及的条件下进行稳健的、数据驱动的三维理解奠定了基础。

对更多实验结果和文章细节感兴趣的读者，可以阅读一下论文原文~

本文仅做学术分享，如有侵权，请联系删文。

3D视觉方向论文辅导来啦！可辅导SCI期刊、CCF会议、本硕博毕设、核心期刊等。

添加微信：cv3d001，备注：姓名+方向+单位，邀请入群。

查看全文

http://www.jsqmd.com/news/722054/