前沿话题:深度学习、3DGS、语义SLAM与多传感器融合
专栏系列:2D/3D/视觉SLAM理论详解(共10篇) |难度:高级 |预计阅读:30分钟
前置知识:前9章的所有理论、深度学习基础概念
本文定位:第10篇(终章),梳理三种SLAM的前沿研究方向——从学习型特征到终身SLAM
摘要
本章综述三种SLAM共享的前沿研究方向:(1) 深度学习SLAM——学习型特征(SuperPoint/SuperGlue)、可微BA(DROID-SLAM)、学习型激光里程计,(2) NeRF与3DGS-SLAM——从隐式场景表示到显式高斯椭球,(3) 语义SLAM——对象级地图的表示与优化,(4) 多传感器融合——激光-视觉-惯性的互补原理与LVI-SAM,(5) 终身SLAM——跨时间尺度的鲁棒定位与地图维护。每个方向阐述其与传统SLAM的理论连接和本质差异。
目录
- 1. 深度学习与SLAM的融合
- 2. 学习型激光SLAM
- 3. 学习型视觉特征与匹配
- 4. 可微BA与端到端SLAM
- 5. NeRF与3DGS-SLAM
- 6. 语义SLAM:对象级环境理解
- 7. 多传感器融合理论
- 8. 终身SLAM与地图维护
1. 深度学习与SLAM的融合
1.1 传统SLAM的局限
传统SLAM依赖人工设计的组件:特征检测规则(Harris, FAST)、描述子(SIFT, ORB)、误差函数(重投影误差、光度误差)、匹配策略(最近邻+ratio test+RANSAC)。这些组件在大多数场景下工作良好,但每个组件都受其设计者的先验知识限制——只能处理设计者预见到的场景变化。
三种SLAM中人工设计的组件:
| 组件 | 2D激光 | 3D激光 | 视觉 |
|---|---|---|---|
| 特征检测 | 无(直接用全扫描) | 曲率阈值(人工设定) | FAST/Harris角点规则 |
| 描述子 | 无(用距离变换) | 无(用几何最近邻) | SIFT/ORB(人工设计的梯度模式) |
| 数据关联 | 最近邻(ICP) | 最近邻(点到线/面) | 最近邻+ratio test |
| 误差函数 | 点到点/线距离 | 点到线/面距离 | 重投影/光度误差 |
1.2 深度学习改造SLAM的四个层次
深度学习可以从四个层次改造SLAM的组件:
- 特征层:用学习型特征(SuperPoint, D2-Net)替代人工特征(ORB, SIFT)
- 匹配层:用图神经网络(SuperGlue)替代最近邻+ratio test
- 估计层:用可微优化(DROID-SLAM的BA层)替代手工推导的GN/LM
- 系统层:端到端SLAM(直接输出位姿和地图,无显式的几何步骤)
当前的共识:层次1-3的混合(几何知识为骨架,学习型组件为皮肉)是最有前景的方向。层次4的端到端在泛化性和可解释性上仍然不足。
2. 学习型激光SLAM
2.1 学习型点云配准
传统ICP/NDT依赖于几何最近邻——在重复几何结构(长走廊的等间距门)或退化场景(空旷场地)中容易失败。学习型方法用深度网络替代或增强数据关联:
- PointNetLK:用PointNet提取点云的全局特征→用LK光流的思想迭代对齐特征→避免显式的点对点最近邻关联
- DCP (Deep Closest Point):用Transformer的注意力机制对两个点云的每对点之间的关系建模→软匹配矩阵替代硬最近邻
2.2 学习型激光里程计
- LO-Net:用卷积网络从3D点云的球面投影中同时估计法向量和动态物体mask→辅助LOAM的特征选择和outlier剔除
- DeepLO:用CNN直接从激光扫描的2D投影(距离+反射率图像)回归SE(3)相对位姿
2.3 学习型特征检测(替代曲率阈值)
LOAM的曲率阈值是人手工设置的全局参数——在某些场景中过小(太多特征,浪费计算),在另一些场景中过大(特征太少,配准退化)。
学习型方法用网络对每个点的"可配准性"打分:网络被训练来预测一个点对配准精度的贡献程度——类似视觉中SuperPoint对"关键点"的评分,用于激光点云。这使特征提取可以自适应于场景几何。
3. 学习型视觉特征与匹配
3.1 SuperPoint:自监督特征检测
SuperPoint(DeTone et al., 2018)使用全卷积网络联合输出特征点位置和256维描述子:
阶段1 — 合成数据预训练:在合成几何图形(角、线、星形等)上训练基础的特征检测——合成数据提供精确的真值角点。
阶段2 — 单应性适应(Homographic Adaptation):将合成训练的模型应用到真实图像。对每张真实图像施加数十个随机单应性变换,网络在每个变换版本上检测特征,通过逆单应性映射回原始图像。在多个变换版本中都出现的位置被标记为"可靠角点"——绕过了人工标注的困难。
3.2 D2-Net:描述-再检测范式
D2-Net(Dusmanu et al., 2019)提出了"描述,再检测":特征检测和描述共享同一个前向传播。一个位置的"特征性"不是由单独的检测器决定,而是隐含在描述子本身的通道响应中——响应大的位置就是特征。
相比两步分离(检测→描述)的管道,D2-Net在一次前向中同时完成两者。
3.3 SuperGlue:图神经网络求解匹配
SuperGlue(Sarlin et al., 2020)将特征匹配转化为**最优传输(Optimal Transport)**问题,使用注意力图神经网络在二分图的两部分之间传递信息。
与传统的本质差异:传统匹配是独立的"每个特征独立找最近邻"——忽略了空间一致性(一个区域的多个特征应该有相似的匹配偏移量)。SuperGlue通过图上的信息传递,隐式地利用了空间结构的信息——匹配不再独立,而是全局协调的。
SuperGlue对三种SLAM的意义:匹配是SLAM的核心操作(不仅视觉,激光的回环检测和点云配准也是匹配问题)。图神经网络求解匹配的范式可以自然地扩展到3D激光点云的关键点匹配。
4. 可微BA与端到端SLAM
4.1 DROID-SLAM的可微BA层
DROID-SLAM(Teed & Deng, 2021)的核心是一个可微的BA层:一个实现BA(更新位姿和深度来最小化光流残差)的迭代优化器,但每一个内部运算(雅可比计算、残差评估、增量计算)都是可微的。
这意味着梯度可以从BA层的输出反向传播到前面的网络层——网络在训练过程中根据BA后的位姿精度来调整前面的特征提取和光流估计。
4.2 为什么可微BA优于端到端黑箱
归纳偏置(Inductive Bias)的正确利用:
- 传统SLAM:利用了几何学的精确知识(投影、对极约束、光度方程),但不具备数据驱动的适应性
- 端到端黑箱:完全从数据学习,丧失了几何结构,需要海量数据才能学到基本的投影关系
- 可微BA:保留了几何优化结构(BA层),但在上游引入了可学习组件(特征提取、匹配、置信度估计)——几何知识为骨架,数据驱动为皮肉
4.3 对三种SLAM的启示
可微BA的范式对激光SLAM同样适用:将ICP/LOAM的优化层(最近邻关联+GN/LM求解位姿)变为可微层——网络学习"哪些点对配准最重要"(权重分配),而非替代整个几何优化。
5. NeRF与3DGS-SLAM
5.1 NeRF的隐式场景表示
NeRF(Mildenhall et al., 2020)用MLP网络表示场景:
F θ ( x , d ) = ( c , σ ) F_\theta(\mathbf{x}, \mathbf{d}) = (\mathbf{c}, \sigma)Fθ(x,d)=(c,σ)
输入3D位置x \mathbf{x}x和视线方向d \mathbf{d}d,输出颜色c \mathbf{c}c和不透明度σ \sigmaσ。通过体渲染沿光线积分颜色和密度来生成像素颜色。
NeRF-SLAM的瓶颈:静态场景假设、单一MLP无法扩展到大规模场景、训练速度慢(每帧需数秒到数分钟)。
NICE-SLAM(2022)的突破:用层次化特征网格代替全局MLP——每个体素存储可学习的特征向量,查询时从各层网格插值特征并馈入小型MLP解码。局部更新仅涉及局部体素特征——适合增量SLAM。
5.2 3D Gaussian Splatting (3DGS)
3DGS(Kerbl et al., 2023)用显式的各向异性高斯椭球表示场景:
G ( x ) = exp ( − 1 2 ( x − μ ) T Σ − 1 ( x − μ ) ) G(\mathbf{x}) = \exp\left(-\frac{1}{2}(\mathbf{x} - \mathbf{\mu})^T \mathbf{\Sigma}^{-1} (\mathbf{x} - \mathbf{\mu})\right)G(x)=exp(−21(x−μ)TΣ−1(x−μ))
通过可微光栅化(将3D高斯按前后顺序投影到图像平面并叠加以生成像素颜色),可以100+ FPS渲染高质量图像——比NeRF的体渲染快两个数量级。
5.3 Gaussian Splatting SLAM
(Mono)GS-SLAM(2024)将3DGS用作SLAM的场景表示:
- 传统VO/SLAM提供初始位姿估计
- 将每帧的像素反投影为3D点,在该点附近初始化新的高斯元
- 新帧到来时通过渲染误差和深度误差同时优化相机位姿和高斯参数
- 通过剪枝和复制维护地图质量
相比传统地图的颠覆式优势:
- 地图不仅包含几何,还编码了完整的外观——可从任意新视角渲染
- 显式表示使增删改操作直接高效
- 可自然处理非朗伯效应(镜面反射、透光材质),这对传统SLAM的深度估计是巨大挑战
3DGS对三种SLAM的影响:
- 视觉SLAM:最直接的受益者——可渲染的3D地图使SLAM和AR/渲染无缝对接
- 3D激光SLAM:激光点云的反射强度可以和RGB信息融合形成彩色高斯元
- 2D激光SLAM:难以直接受益(2D信息不足以构建3D高斯场景)
6. 语义SLAM:对象级环境理解
6.1 从点级到对象级
传统SLAM在点级别操作(特征点、2D栅格、3D点云)。语义SLAM在物体级别操作:将环境建模为一组带有语义标签、位姿和形状的3D对象。
对象级表示的优势:
| 优势 | 2D激光 | 3D激光 | 视觉 |
|---|---|---|---|
| 数据关联消歧 | 相似走廊→无外观→无法区分 | 相似几何→有物体尺寸→可部分区分 | 外观区分物体→最佳 |
| 长期稳定性 | 物体边界比栅格稳定 | 物体比点云稳定 | 物体比特征点稳定 |
| 地图紧凑性 | 1个"门"对象替代数百栅格 | 1个"车"对象替代数千点 | 1个"椅子"替代数百特征点 |
| 动态推理 | 门可以开/关 | 车可以移动 | 椅子可以挪动 |
6.2 QuadricSLAM:用二次曲面表示物体
QuadricSLAM将物体建模为3D椭球体(二次曲面,9自由度)。物体的投影形成椭圆(由Q \mathbf{Q}Q和相机位姿的投影方程精确刻画)。观测约束来自语义分割的mask——物体投影应与2D分割mask一致。
跨传感器适用性:椭球体表示对视觉和激光都适用——激光点云中物体的3D边界框可以自然地约束椭球参数。
6.3 动态SLAM中的语义过滤
语义信息在动态场景中的关键作用:识别并掩模动态物体(行人、车辆)。这些物体违反SLAM的静态场景假设。对三种SLAM:
- 2D激光:语义分割识别人的激光点→将其从扫描匹配中排除
- 3D激光:3D语义分割识别动态车辆→排除在点云配准之外
- 视觉:实例分割掩模动态物体→从BA中排除其特征
7. 多传感器融合理论
7.1 松耦合 vs 紧耦合
| 松耦合 | 紧耦合 | |
|---|---|---|
| 工作方式 | 各传感器独立估计,结果融合 | 所有观测在同一优化中处理 |
| 优点 | 模块独立、可分别开发调试 | 最大化利用互补性、全系统一致性最优 |
| 缺点 | 无法利用传感器间互补信息 | 系统复杂(时间同步、外参、异构噪声) |
| 代表系统 | 早期的GPS+VO融合 | VINS-Mono, LIO-SAM, LVI-SAM |
现代SLAM系统无一例外地采用紧耦合。
7.2 传感器互补性的信息论分析
三种传感器提供的信息具有互补的频谱:
| 特性 | 相机 | 激光雷达 | IMU |
|---|---|---|---|
| 空间分辨率 | 高(数百万像素) | 中(数千-数万点) | — |
| 时间频率 | ~30Hz | ~10-20Hz | 100-1000Hz |
| 直接深度 | 无(需三角化) | 有(~1-5cm精度) | — |
| 光照依赖 | 强(暗光/强光退化) | 无关 | 无关 |
| 纹理依赖 | 强(白墙退化) | 中等(空旷退化) | 无关 |
| 快速运动 | 运动模糊→退化 | 相对鲁棒 | 核心优势(高频率) |
| 绝对尺度 | 无(单目)/ 有(双目) | 有 | 有 |
| 长期漂移 | 有(累积漂移) | 有(累积漂移) | 严重(二次发散) |
互补的核心模式:
- 弱纹理(白墙)→ 激光弥补视觉
- 重复几何(长直走廊)→ 视觉区分激光无法区分的结构
- 快速旋转/剧烈运动 → IMU弥补低帧率视觉
- 视觉-惯性:IMU提供绝对尺度和重力方向,视觉抑制IMU的误差发散
7.3 LVI-SAM:双向紧耦合的范式
LVI-SAM实现了视觉-惯性子系统和激光-惯性子系统的双向信息传递:
- 视觉→激光:回环检测(词袋模型)、初始位姿估计
- 激光→视觉:精确深度估计(替代单目三角化)、视觉初始化时的尺度
双向紧耦合超越了传统的单向融合(一个传感器辅助另一个)——两个子系统通过不断的正反馈循环互相提升性能。
8. 终身SLAM与地图维护
8.1 SLAM的长期挑战
SLAM不仅是"定位这一刻",更需要跨时间、跨季节的长期定位能力:
| 挑战 | 2D激光 | 3D激光 | 视觉 |
|---|---|---|---|
| 光照变化(日夜) | 不敏感(纯几何) | 不敏感(纯几何) | 极其敏感 |
| 季节变化(植被、雪) | 部分影响(地面反射率变化) | 影响较小 | 严重影响(外观完全改变) |
| 结构变化(家具、装修) | 栅格变化→地图需更新 | 点云变化→地图需更新 | 特征变化→地图需更新 |
| 动态物体(人、车) | 单帧可滤除 | 单帧可滤除 | 特征匹配被污染 |
激光对光照和季节变化的天然不变性是其在户外长期SLAM中相对于视觉的核心优势。
8.2 变化检测与地图更新策略
变化检测:比较当前观测和地图预测的差异,识别变化元素(旧椅子被替代)和稳定元素(建筑的墙)。
地图更新:在保持长期一致性的同时允许局部动态更新:
- 频繁变化的物体(人、车)→ 不进入长期地图
- 偶尔变化的物体(家具)→ 更新地图或标记为随时间变化
- 稳定的结构(建筑)→ 置信度逐渐累积
8.3 时空表示
长期SLAM要求地图同时存储空间信息和时间信息——某处过去的状态、什么时候发生了变化。时空地图使机器人可以根据时间上下文(“工作日白天,这个走廊通常有行人”)做出更好的导航决策。
这个方向连接了SLAM和长期环境理解的鸿沟,是让SLAM系统从"即时定位工具"走向"持续机器人记忆"的关键转变。
本文总结
- 深度学习改造SLAM的四个层次:特征层(SuperPoint/D2-Net)→ 匹配层(SuperGlue)→ 估计层(可微BA/DROID-SLAM)→ 系统层(端到端)。当前共识:层次1-3的混合是最佳路径
- 学习型激光SLAM:将视觉SLAM中成熟的深度学习范式(学习型特征、注意力匹配、可微优化)迁移到激光点云——PointNetLK、DCP、LO-Net
- 可微BA = 几何骨架 + 学习皮肉:保留BA的优化结构,在其上游引入可学习组件——这是可解释性和数据驱动的最佳折中
- 3DGS-SLAM将地图从"几何点云"升级为"可渲染的场景":显式各向异性椭球支持100+ FPS光栅化渲染——对视觉和3D激光SLAM的影响巨大
- 语义SLAM = 对象级操作:将环境表示为物体而非点——数据关联更高层、长期更稳定、地图更紧凑
- 多传感器融合从松耦合走向紧耦合 → 双向紧耦合:LVI-SAM的视觉↔激光双向信息传递是当前最优范式,实现了传感器层面的互补性最大化
- 终身SLAM是行业的下一个圣杯:激光对光照/季节的不变性是其户外长期SLAM的核心优势;视觉需要对抗外观变化——时空地图是两者的共同方向
标签
SLAM深度学习3DGS语义SLAM多传感器融合终身SLAM
