当前位置：首页 > news >正文

DeFlowSLAM 基于自监督场景运动分解的动态稠密 SLAM

news 2026/5/7 20:50:51

1. 摘要

我们提出了一种新颖的光流表示，它将光流分解为由相机运动引起的静态光流场和由场景中物体运动引起的另一个动态光流场。基于这种表示，我们提出了一种动态 SLAM，称为 DeFlowSLAM，它利用图像中的静态和动态像素来求解相机位姿，而不是像其他动态 SLAM 系统那样仅仅使用静态背景像素。我们提出了一个动态更新模块，以自监督的方式训练我们的 DeFlowSLAM，其中稠密的集束调整层接收估计的静态光流场和由动态掩码控制的权重，并输出优化的静态光流场的残差、相机位姿和逆深度。静态和动态光流场是通过将当前图像映射 (warp) 到相邻图像来估计的，并且可以通过将两个场相加来获得最终的光流场。大量实验表明，DeFlowSLAM 在静态和动态场景中表现出与最先进的 DROID-SLAM 相当的性能，同时在高动态环境中的性能明显优于 DROID-SLAM，因此它可以很好地推广到静态和动态场景。

代码和数据可在项目网页上找到：（注：目前尚未上传代码）

DeFlowSLAM: Self-Supervised Scene Motion Decomposition for Dynamic Dense SLAM

2. 主要贡献

我们提出了一种新颖的双光流场景运动表示，将光流分解为静态光流场和动态光流场，从而具备了处理动态物体的能力。
我们构建了一个动态密集 SLAM，DeFlowSLAM，它在动态场景中优于最先进的方法。
我们提出了一种自监督的训练方法，而不是 DROID-SLAM 中的强监督学习。

3. 算法结构

注：本工作整体结构基于 DROID-SLAM，因此此处省略DROID-SLAM相关的算法结构解析，主要着重于介绍新增的算法模块。

将光流分解为静态背景的光流和动态物理的光流两部分

相比于 DROID-SLAM 对光流不加区分，DeFlowSLAM 同时估计静态光流和动态光流，以及动态光流所对应的二值聚合掩码，0和1分别代表动态和静态光流。在估计相机位姿时，仅使用静态光流。下图展示了一个例子，如果场景中有动态物体，直接使用静态光流匹配像素会导致错误的结果，因而导致根据光度一致性构建的误差项无效。使用网络预测的聚合掩码，我们可以在几何光度损失中过滤掉这些无效像素（例如下图中的粉红色掩码）。

3.1. 整体系统框图

基于以上的光流表征，DeFlowSLAM 以图像序列为输入，提取特征构建4D图像关联体积(correlation volume)，将其与初始静态光流、完整光流（静态光流与动态光流之和）、动态掩码一起输入入动态更新模块，迭代优化位姿残差、逆深度、静态光流和动态光流，最后输出估计。

3.2. 动态更新模块

与 DROID-SLAM 中直接作用于光流修正项的更新模块不同，我们的动态更新模块分别作用于分解后的静态光流和动态光流。静态光流的处理方式与 DROID-SLAM 类似；而对于动态光流，在每次迭代时通过动态光流的卷积层直接输出获得，同时，我们将其与静态光流相加以获得完整的光流，并输入到光流特征编码器中，用于下一次迭代优化。每次迭代都会更新隐藏状态，并额外产生一个位姿增量、深度增量、动态掩码增量和动态光流。位姿更新需要在SE3流形上操作，而深度、静态光流和动态掩码直接相加即可。通过多次迭代以上变量将逐步收敛至最佳值，以表征正确的三维重建结果。在训练初始化阶段，动态掩码和动态光流被初始化为0。

对于ConvGRU模块，相比于DROID-SLAM输出静态光流修正项和对应的关联置度，DeFlowSLAM又输出了两个新的项，分别为更新后的动态光流和动态掩码的增量。其他部分（包括DBA层）与DROID-SLAM基本一样，不再赘述。

3.3. 训练

与DROID-SLAM是supervised learning不同，DeFlowSLAM可以采用self-supervised learning或者semi-supervised learning两种模式来训练网络，具体区别见下。

3.3.1. 几何光度误差项

为了实现自监督学习，DeFlowSLAM采用了Digging into self-supervised monocular depth estimation论文中的方法。基本方法为：给定预测的位姿和深度值，我们可以找到图像 i 中的像素在图像j中的对应点坐标，再利用双线性采样对图像 j 进行采样，得到一个采样后的图像。然后再用原始图像与其一起构建几何光度误差项。

我们引入 L1 损失和 SSIM损失来构造我们的几何光度损失，并设置 α = 0.85。

在此基础上引入上文中提到的动态掩码，因此最终构建的误差项为：

其中 N' 表示动态掩码值为 1（即静态光流）的像素个数。