当前位置：首页 > news >正文

更加现代的Deep Learning接入SLAM的方法

news 2026/7/28 5:29:46

该文章通过Opus 模型蒸馏MAC-VO、DROID-SLAMDROID-SLAM-W以及我个人的wiki库，再经过人工审核与再次编辑后得到。
个人知识库构建，详见我的上一篇文章：LLM Wiki: AI时代下的个人Wiki整理方法

Definition

本页是一篇分析性综述，回答四个问题：
1. 深度学习当前以哪些形态接入 SLAM；
2. 它在哪些经典 SLAM 失效场景里撬动了真正的提升；
3. 这种接入带来了哪些结构性的进步（而非单纯 ATE 数字）；
4. 后续值得投入的研究方向是什么。

1. 问题起点：经典 SLAM 在哪些场景里会失效

在讨论 DL 能带来什么之前，先明确经典几何 SLAM 的痛点。它们不是「精度还能再高一点」的问题，而是结构性失效——一旦踩到，整条管线的自洽性就被破坏：

1.1 弱纹理 / 重复纹理

白墙、大面积地面、重复砖块、无特征长廊。FAST/Harris 等角点检测返回极少数据点，LK/ORB 匹配进入数据关联歧义区，前端退化为漂移噪声。

1.2 动态物体与遮挡

动态物体违反 SLAM 的「静态世界」假设。手工 RANSAC 只能在比例合适时剔除外点；若动态物体占图像面积超阈值，或遮挡了共视关键点，RANSAC 本身会被污染。
经典方法的典型失败是：位姿估计把动态物体解释为运动的自我，造成几何自洽但语义错误的漂移。

1.3 光照剧变与低光

光度一致性假设在强曝光变化、阴影边界、夜间弱光下直接崩塌。
描述子（ORB、BRIEF、SIFT）在大尺度光照差异时匹配率骤降，强迫系统依赖更强的几何先验或 IMU 融合[[source-imu]]。

1.4 跨域泛化与合成到真实迁移

在一类数据集上手工调好的阈值、窗口、描述子，换到另一域（合成→真实、室内→室外、城市→野外）常需重调。
这不是传统 SLAM 的「bug」，而是它本质上没有学习能力——一切先验来自工程师的经验。

1.5 计算预算受限下的退化

工程落地要求在车规/无人机等平台实时运行。BA 窗口、关键帧数、描述子维度都要妥协。
这使「精度 vs 实时」变成硬约束，经典管线能给的选项很有限。

flowchart LRclassicSLAM["经典 SLAM 管线"]subgraph fail [典型失效场景]lowTex[弱纹理/重复纹理]dyn[动态物体/遮挡]light[光照剧变/低光]scale[单目尺度模糊]domain[跨域迁移]budget[计算预算受限]endclassicSLAM --> failfail --> consequences[漂移/丢失/重启]

2. 深度学习接入 SLAM 的四个层次

把近年工作往这条主线上归纳，会看到 DL 并不是简单替换某个模块，而是在四个层次上改写管线。

2.1 观测生成层：从稀疏描述子到稠密学习匹配

对应失效：弱纹理、光照剧变、跨域。
代表：RAFT用全对 4D 相关体 + ConvGRU 迭代产出稠密光流；DROID-SLAM把它改造成 SLAM 前端；MAC-VO用 FlowFormer 做相同事情但输出对角不确定度。
结构性变化：观测从「稀疏、描述子匹配、RANSAC 内点筛选」变成稠密、带学习权重、由网络直接给出可靠度。这意味着「在什么像素上做几何」从手工阈值交给数据。

2.2 不确定度层：从隐式黑盒到度量感知

对应失效：动态物体、多传感器融合语义不对齐、跨域置信度失真。
代表：
- DROID-SLAM 的 ConvGRU 输出 per-pixel confidence，隐式被稠密 DBA 当权重用。这是一种「网络学会给自己打分」的范式。
- MAC-VO 进一步把 2D 匹配不确定度 + 深度不确定度显式推导成 3D 点的 3×3 协方差（含非对角项、带物理单位 m²），让学习型 VO 的权重可被 IMU/GNSS 融合侧正确解读。
- DROID-SLAM-W则把不确定度从观测分支彻底解耦：DINOv2 特征经仿射 (u_p = A F_p + b) 参数化成 BA 权重，并用跨帧特征余弦相似度识别动态/难匹配像素。
结构性变化：不确定度不再是优化权重的副产品，而是有独立语义、可被审计、可跨模块迁移的一等量。这是最能改变工程实践的层次。

2.3 优化结构层：可微 BA 与混合后端

对应失效：训练目标和推理目标不一致、人工损失函数拼接过度。
代表：
- DROID-SLAM 证明捆集调整可以可微——梯度可穿过 BA 回传到前端 ConvGRU，使前端、几何优化、训练目标三者端到端对齐。
- MAC-VO 走另一条路：后端不变，只把更好的协方差接到两帧 PGO；不追求可微端到端，追求工程可部署。
- DROID-SLAM-W 用交替优化（位姿/深度 ↔ 不确定度仿射参数）+ 梯度下降，避开显式 Hessian 求逆，是「学习与优化交替」的工程变体。
结构性变化：BA 从「工程师手写的静态算子」变成「可以被数据监督、可以和前端共享梯度的动态模块」。同时出现「轻量 PGO + 重量 DBA」的混合后端雏形。

2.4 特征表达层：从几何到语义

对应失效：动态物体识别依赖几何一致性检验，太晚也太弱；跨域泛化缺少高层先验。
代表：DROID-SLAM-W 把 DINOv2 语义特征当作不确定度的原料；PLC-LiSLAM 的面/线/圆柱参数化是结构化语义在激光 SLAM 侧的对照。
结构性变化：学习信号从像素级几何（光流/匹配）升格到语义+几何。在场景理解变强的同时，引入新的 domain gap 风险。

3. 具体解决了哪些失效问题（按场景回看）

把第 1 节的失效场景与第 2 节的四个层次对回去，可以列出可证据化的进步：

失效场景	主要接入层	典型证据	可观测的进步
弱纹理 / 重复纹理	观测生成	DROID-SLAM 4D 相关 + ConvGRU	稠密匹配保有足够可靠像素；不必依赖局部角点密度
动态物体 / 遮挡	不确定度 + 特征表达	MAC-VO 关键点选取；DROID-SLAM-W DINO 相似度	不可靠像素被显式降权而非一刀切剔除，保留信息量
光照剧变 / 低光	观测生成	FlowFormer / RAFT 类前端在合成恶劣光照数据上的泛化	光度一致性假设被学习到的鲁棒匹配部分替代
尺度模糊	不确定度 + 融合接口	MAC-VO 度量协方差（m²）	把前端不确定度转成尺度一致、物理单位的观测噪声，利于 IMU/GNSS 融合
跨域迁移	特征表达 + 不确定度	DROID-SLAM-W 在野外数据上的泛化路径	语义特征弱化对合成域（TartanAir 等）的过拟合
计算预算受限	优化结构	MAC-VO 两帧 PGO 替代多帧 DBA	新 Pareto：在可接受精度下，显著降低多帧 BA 成本

此外，有两条管线级的进步值得单列：

训练-推理一致：DROID-SLAM 的可微 BA 让监督信号直接作用于最终位姿误差，而不是间接通过重投影/光度中间量。这减少了「训练 loss 好、推理结果差」的风险。
可解释性取代经验调参：MAC-VO 强调的「显式 > 隐式」不确定度建模，让 SLAM 工程师能定位漂移发生在哪，而不是靠打日志猜测。

4. 结构性进步 vs 数字上的提升

值得单独澄清：这一波 DL-SLAM 工作中，数字上（如 ATE）的提升经常不是主要卖点。MAC-VO 原文明确承认相对 DROID-SLAM 没在 ATE 上碾压。真正的进步是结构性的：

信息流重组：前端→不确定度→BA 不再是三个孤立模块，而可以端到端训练，或至少共享一个一等公民（显式协方差）。
工程接口标准化：带物理单位的协方差是可被下游消费的——对比 DROID-SLAM 尺度不可知的 confidence，后者更难直接接 ESKF/IEKF[[entity-filtering-estimation]]。
训练哲学可选化：DROID 走可微端到端，MAC-VO 主动半冻结，DROID-SLAM-W 走交替优化。三种策略都有代表性工作，工程可按平台预算自选。
经典几何没有被抛弃：BA、PGO、位姿图仍是系统骨架；DL 的贡献是替换可被替换的部分，而不是从零重造 SLAM。这与早期「end-to-end 回归位姿」路线形成明显分野。

5. 仍未解决与值得研究的方向

5.1 不确定度语义的标准化

目前 ConvGRU confidence、3×3 度量协方差、DINO 仿射不确定度三种不兼容。下游融合侧无法「通用消费」前端输出。
方向：定义一组不确定度接口约定（至少包含尺度、单位、是否度量感知、是否语义驱动），并在 benchmark 中显式记录。

5.2 混合后端与计算预算分层

可微 DBA 与两帧 PGO 不必二选一。分层后端：实时主线跑 PGO，关键帧/回环/降级检测触发 DBA 或可微 BA 做一致性修正。
方向：研究分层触发策略（何时、多久、多大窗口）与统一中间表示（协方差？位姿图子图？）。

5.3 自监督与在线自适应

DL 前端的训练数据仍严重依赖 TartanAir 等合成/半真实数据集。工程落地时，系统跨域后不能自我更新。
方向：把 SLAM 自身产生的几何一致性信号（共视、闭环、重投影残差）当作自监督信号，做在线微调或域自适应。这是一个天然接口，但成熟方案稀少。

5.4 闭环、地图与长周期维护

当前 DL-SLAM 工作高度集中在前端 + 局部 BA。闭环检测、长期地图维护、语义地图更新仍以传统方法为主（BoW、结构化 landmark、[[source-raw-33f819de92]] 的面/线/圆柱）。
方向：把 DL 的特征/不确定度/端到端训练范式推进到闭环与长期地图层。这比前端更难，因为涉及跨时间的数据关联与一致性。