当前位置：首页 > news >正文

前沿话题：深度学习、3DGS、语义SLAM与多传感器融合

news 2026/7/15 0:33:19

专栏系列：2D/3D/视觉SLAM理论详解（共10篇） |难度：高级 |预计阅读：30分钟
前置知识：前9章的所有理论、深度学习基础概念
本文定位：第10篇（终章），梳理三种SLAM的前沿研究方向——从学习型特征到终身SLAM

摘要

本章综述三种SLAM共享的前沿研究方向：(1) 深度学习SLAM——学习型特征（SuperPoint/SuperGlue）、可微BA（DROID-SLAM）、学习型激光里程计，(2) NeRF与3DGS-SLAM——从隐式场景表示到显式高斯椭球，(3) 语义SLAM——对象级地图的表示与优化，(4) 多传感器融合——激光-视觉-惯性的互补原理与LVI-SAM，(5) 终身SLAM——跨时间尺度的鲁棒定位与地图维护。每个方向阐述其与传统SLAM的理论连接和本质差异。

1. 深度学习与SLAM的融合

1.1 传统SLAM的局限

传统SLAM依赖人工设计的组件：特征检测规则（Harris, FAST）、描述子（SIFT, ORB）、误差函数（重投影误差、光度误差）、匹配策略（最近邻+ratio test+RANSAC）。这些组件在大多数场景下工作良好，但每个组件都受其设计者的先验知识限制——只能处理设计者预见到的场景变化。

三种SLAM中人工设计的组件：

组件	2D激光	3D激光	视觉
特征检测	无（直接用全扫描）	曲率阈值（人工设定）	FAST/Harris角点规则
描述子	无（用距离变换）	无（用几何最近邻）	SIFT/ORB（人工设计的梯度模式）
数据关联	最近邻（ICP）	最近邻（点到线/面）	最近邻+ratio test
误差函数	点到点/线距离	点到线/面距离	重投影/光度误差

1.2 深度学习改造SLAM的四个层次

深度学习可以从四个层次改造SLAM的组件：

特征层：用学习型特征（SuperPoint, D2-Net）替代人工特征（ORB, SIFT）
匹配层：用图神经网络（SuperGlue）替代最近邻+ratio test
估计层：用可微优化（DROID-SLAM的BA层）替代手工推导的GN/LM
系统层：端到端SLAM（直接输出位姿和地图，无显式的几何步骤）

当前的共识：层次1-3的混合（几何知识为骨架，学习型组件为皮肉）是最有前景的方向。层次4的端到端在泛化性和可解释性上仍然不足。

2. 学习型激光SLAM

2.1 学习型点云配准

传统ICP/NDT依赖于几何最近邻——在重复几何结构（长走廊的等间距门）或退化场景（空旷场地）中容易失败。学习型方法用深度网络替代或增强数据关联：

PointNetLK：用PointNet提取点云的全局特征→用LK光流的思想迭代对齐特征→避免显式的点对点最近邻关联
DCP (Deep Closest Point)：用Transformer的注意力机制对两个点云的每对点之间的关系建模→软匹配矩阵替代硬最近邻

2.2 学习型激光里程计

LO-Net：用卷积网络从3D点云的球面投影中同时估计法向量和动态物体mask→辅助LOAM的特征选择和outlier剔除
DeepLO：用CNN直接从激光扫描的2D投影（距离+反射率图像）回归SE(3)相对位姿

2.3 学习型特征检测（替代曲率阈值）

LOAM的曲率阈值是人手工设置的全局参数——在某些场景中过小（太多特征，浪费计算），在另一些场景中过大（特征太少，配准退化）。

学习型方法用网络对每个点的"可配准性"打分：网络被训练来预测一个点对配准精度的贡献程度——类似视觉中SuperPoint对"关键点"的评分，用于激光点云。这使特征提取可以自适应于场景几何。

3. 学习型视觉特征与匹配

3.1 SuperPoint：自监督特征检测

SuperPoint（DeTone et al., 2018）使用全卷积网络联合输出特征点位置和256维描述子：

阶段1 — 合成数据预训练：在合成几何图形（角、线、星形等）上训练基础的特征检测——合成数据提供精确的真值角点。

阶段2 — 单应性适应（Homographic Adaptation）：将合成训练的模型应用到真实图像。对每张真实图像施加数十个随机单应性变换，网络在每个变换版本上检测特征，通过逆单应性映射回原始图像。在多个变换版本中都出现的位置被标记为"可靠角点"——绕过了人工标注的困难。

3.2 D2-Net：描述-再检测范式

D2-Net（Dusmanu et al., 2019）提出了"描述，再检测"：特征检测和描述共享同一个前向传播。一个位置的"特征性"不是由单独的检测器决定，而是隐含在描述子本身的通道响应中——响应大的位置就是特征。

相比两步分离（检测→描述）的管道，D2-Net在一次前向中同时完成两者。

3.3 SuperGlue：图神经网络求解匹配

SuperGlue（Sarlin et al., 2020）将特征匹配转化为**最优传输（Optimal Transport）**问题，使用注意力图神经网络在二分图的两部分之间传递信息。

与传统的本质差异：传统匹配是独立的"每个特征独立找最近邻"——忽略了空间一致性（一个区域的多个特征应该有相似的匹配偏移量）。SuperGlue通过图上的信息传递，隐式地利用了空间结构的信息——匹配不再独立，而是全局协调的。

SuperGlue对三种SLAM的意义：匹配是SLAM的核心操作（不仅视觉，激光的回环检测和点云配准也是匹配问题）。图神经网络求解匹配的范式可以自然地扩展到3D激光点云的关键点匹配。

4. 可微BA与端到端SLAM

4.1 DROID-SLAM的可微BA层

DROID-SLAM（Teed & Deng, 2021）的核心是一个可微的BA层：一个实现BA（更新位姿和深度来最小化光流残差）的迭代优化器，但每一个内部运算（雅可比计算、残差评估、增量计算）都是可微的。

这意味着梯度可以从BA层的输出反向传播到前面的网络层——网络在训练过程中根据BA后的位姿精度来调整前面的特征提取和光流估计。

4.2 为什么可微BA优于端到端黑箱

归纳偏置（Inductive Bias）的正确利用：

传统SLAM：利用了几何学的精确知识（投影、对极约束、光度方程），但不具备数据驱动的适应性
端到端黑箱：完全从数据学习，丧失了几何结构，需要海量数据才能学到基本的投影关系
可微BA：保留了几何优化结构（BA层），但在上游引入了可学习组件（特征提取、匹配、置信度估计）——几何知识为骨架，数据驱动为皮肉

4.3 对三种SLAM的启示

可微BA的范式对激光SLAM同样适用：将ICP/LOAM的优化层（最近邻关联+GN/LM求解位姿）变为可微层——网络学习"哪些点对配准最重要"（权重分配），而非替代整个几何优化。

5. NeRF与3DGS-SLAM

5.1 NeRF的隐式场景表示

NeRF（Mildenhall et al., 2020）用MLP网络表示场景：

F θ ( x , d ) = ( c , σ ) F_\theta(\mathbf{x}, \mathbf{d}) = (\mathbf{c}, \sigma)Fθ(x,d)=(c,σ)

输入3D位置x \mathbf{x}x和视线方向d \mathbf{d}d，输出颜色c \mathbf{c}c和不透明度σ \sigmaσ。通过体渲染沿光线积分颜色和密度来生成像素颜色。

NeRF-SLAM的瓶颈：静态场景假设、单一MLP无法扩展到大规模场景、训练速度慢（每帧需数秒到数分钟）。

NICE-SLAM（2022）的突破：用层次化特征网格代替全局MLP——每个体素存储可学习的特征向量，查询时从各层网格插值特征并馈入小型MLP解码。局部更新仅涉及局部体素特征——适合增量SLAM。

5.2 3D Gaussian Splatting (3DGS)

3DGS（Kerbl et al., 2023）用显式的各向异性高斯椭球表示场景：

G ( x ) = exp ⁡ ( − 1 2 ( x − μ ) T Σ − 1 ( x − μ ) ) G(\mathbf{x}) = \exp\left(-\frac{1}{2}(\mathbf{x} - \mathbf{\mu})^T \mathbf{\Sigma}^{-1} (\mathbf{x} - \mathbf{\mu})\right)G(x)=exp(−21(x−μ)TΣ−1(x−μ))

通过可微光栅化（将3D高斯按前后顺序投影到图像平面并叠加以生成像素颜色），可以100+ FPS渲染高质量图像——比NeRF的体渲染快两个数量级。

5.3 Gaussian Splatting SLAM

(Mono)GS-SLAM（2024）将3DGS用作SLAM的场景表示：

传统VO/SLAM提供初始位姿估计
将每帧的像素反投影为3D点，在该点附近初始化新的高斯元
新帧到来时通过渲染误差和深度误差同时优化相机位姿和高斯参数
通过剪枝和复制维护地图质量

相比传统地图的颠覆式优势：

地图不仅包含几何，还编码了完整的外观——可从任意新视角渲染
显式表示使增删改操作直接高效
可自然处理非朗伯效应（镜面反射、透光材质），这对传统SLAM的深度估计是巨大挑战

3DGS对三种SLAM的影响：

视觉SLAM：最直接的受益者——可渲染的3D地图使SLAM和AR/渲染无缝对接
3D激光SLAM：激光点云的反射强度可以和RGB信息融合形成彩色高斯元
2D激光SLAM：难以直接受益（2D信息不足以构建3D高斯场景）

6. 语义SLAM：对象级环境理解

6.1 从点级到对象级

传统SLAM在点级别操作（特征点、2D栅格、3D点云）。语义SLAM在物体级别操作：将环境建模为一组带有语义标签、位姿和形状的3D对象。

对象级表示的优势：

优势	2D激光	3D激光	视觉
数据关联消歧	相似走廊→无外观→无法区分	相似几何→有物体尺寸→可部分区分	外观区分物体→最佳
长期稳定性	物体边界比栅格稳定	物体比点云稳定	物体比特征点稳定
地图紧凑性	1个"门"对象替代数百栅格	1个"车"对象替代数千点	1个"椅子"替代数百特征点
动态推理	门可以开/关	车可以移动	椅子可以挪动

6.2 QuadricSLAM：用二次曲面表示物体

QuadricSLAM将物体建模为3D椭球体（二次曲面，9自由度）。物体的投影形成椭圆（由Q \mathbf{Q}Q和相机位姿的投影方程精确刻画）。观测约束来自语义分割的mask——物体投影应与2D分割mask一致。

跨传感器适用性：椭球体表示对视觉和激光都适用——激光点云中物体的3D边界框可以自然地约束椭球参数。

6.3 动态SLAM中的语义过滤

语义信息在动态场景中的关键作用：识别并掩模动态物体（行人、车辆）。这些物体违反SLAM的静态场景假设。对三种SLAM：

2D激光：语义分割识别人的激光点→将其从扫描匹配中排除
3D激光：3D语义分割识别动态车辆→排除在点云配准之外
视觉：实例分割掩模动态物体→从BA中排除其特征

7. 多传感器融合理论

7.1 松耦合 vs 紧耦合

松耦合	紧耦合
工作方式	各传感器独立估计，结果融合	所有观测在同一优化中处理
优点	模块独立、可分别开发调试	最大化利用互补性、全系统一致性最优
缺点	无法利用传感器间互补信息	系统复杂（时间同步、外参、异构噪声）
代表系统	早期的GPS+VO融合	VINS-Mono, LIO-SAM, LVI-SAM

现代SLAM系统无一例外地采用紧耦合。

7.2 传感器互补性的信息论分析

三种传感器提供的信息具有互补的频谱：

特性	相机	激光雷达	IMU
空间分辨率	高（数百万像素）	中（数千-数万点）	—
时间频率	~30Hz	~10-20Hz	100-1000Hz
直接深度	无（需三角化）	有（~1-5cm精度）	—
光照依赖	强（暗光/强光退化）	无关	无关
纹理依赖	强（白墙退化）	中等（空旷退化）	无关
快速运动	运动模糊→退化	相对鲁棒	核心优势（高频率）
绝对尺度	无（单目）/ 有（双目）	有	有
长期漂移	有（累积漂移）	有（累积漂移）	严重（二次发散）

互补的核心模式：

弱纹理（白墙）→ 激光弥补视觉
重复几何（长直走廊）→ 视觉区分激光无法区分的结构
快速旋转/剧烈运动 → IMU弥补低帧率视觉
视觉-惯性：IMU提供绝对尺度和重力方向，视觉抑制IMU的误差发散

7.3 LVI-SAM：双向紧耦合的范式

LVI-SAM实现了视觉-惯性子系统和激光-惯性子系统的双向信息传递：

视觉→激光：回环检测（词袋模型）、初始位姿估计
激光→视觉：精确深度估计（替代单目三角化）、视觉初始化时的尺度

双向紧耦合超越了传统的单向融合（一个传感器辅助另一个）——两个子系统通过不断的正反馈循环互相提升性能。

8. 终身SLAM与地图维护

8.1 SLAM的长期挑战

SLAM不仅是"定位这一刻"，更需要跨时间、跨季节的长期定位能力：

挑战	2D激光	3D激光	视觉
光照变化（日夜）	不敏感（纯几何）	不敏感（纯几何）	极其敏感
季节变化（植被、雪）	部分影响（地面反射率变化）	影响较小	严重影响（外观完全改变）
结构变化（家具、装修）	栅格变化→地图需更新	点云变化→地图需更新	特征变化→地图需更新
动态物体（人、车）	单帧可滤除	单帧可滤除	特征匹配被污染

激光对光照和季节变化的天然不变性是其在户外长期SLAM中相对于视觉的核心优势。

8.2 变化检测与地图更新策略

变化检测：比较当前观测和地图预测的差异，识别变化元素（旧椅子被替代）和稳定元素（建筑的墙）。

地图更新：在保持长期一致性的同时允许局部动态更新：

频繁变化的物体（人、车）→ 不进入长期地图
偶尔变化的物体（家具）→ 更新地图或标记为随时间变化
稳定的结构（建筑）→ 置信度逐渐累积

8.3 时空表示

长期SLAM要求地图同时存储空间信息和时间信息——某处过去的状态、什么时候发生了变化。时空地图使机器人可以根据时间上下文（“工作日白天，这个走廊通常有行人”）做出更好的导航决策。

这个方向连接了SLAM和长期环境理解的鸿沟，是让SLAM系统从"即时定位工具"走向"持续机器人记忆"的关键转变。

本文总结

深度学习改造SLAM的四个层次：特征层（SuperPoint/D2-Net）→ 匹配层（SuperGlue）→ 估计层（可微BA/DROID-SLAM）→ 系统层（端到端）。当前共识：层次1-3的混合是最佳路径
学习型激光SLAM：将视觉SLAM中成熟的深度学习范式（学习型特征、注意力匹配、可微优化）迁移到激光点云——PointNetLK、DCP、LO-Net
可微BA = 几何骨架 + 学习皮肉：保留BA的优化结构，在其上游引入可学习组件——这是可解释性和数据驱动的最佳折中
3DGS-SLAM将地图从"几何点云"升级为"可渲染的场景"：显式各向异性椭球支持100+ FPS光栅化渲染——对视觉和3D激光SLAM的影响巨大
语义SLAM = 对象级操作：将环境表示为物体而非点——数据关联更高层、长期更稳定、地图更紧凑
多传感器融合从松耦合走向紧耦合 → 双向紧耦合：LVI-SAM的视觉↔激光双向信息传递是当前最优范式，实现了传感器层面的互补性最大化
终身SLAM是行业的下一个圣杯：激光对光照/季节的不变性是其户外长期SLAM的核心优势；视觉需要对抗外观变化——时空地图是两者的共同方向