当前位置：首页 > news >正文

BEV 融合

news 2026/3/27 4:48:00

好的，我们来深入聊聊BEV 融合这个方向。

BEV（Bird‘s-Eye-View，鸟瞰图）融合的核心思想，就是把相机和激光雷达这两种不同“眼睛”看到的东西，都统一转换到从上往下的鸟瞰视角下，再进行特征融合。这么做的好处是，BEV空间天然就是做路径规划和障碍物判断的地方，感知结果能直接拿来用。

不过，早期的 BEV 融合方法（比如开山之作BEVFusion）虽然统一了坐标系，但相机和激光雷达在融合前基本是“各干各的”，没有交互。这导致相机分支依然缺乏准确的深度信息，融合的潜力没有被完全挖掘出来。

而你提到的GAFusion，正是针对这个痛点提出的解决方案。我们可以把它当作一个绝佳的“解剖案例”，来理解当前 BEV 融合的先进理念。

🔬 深度解剖 GAFusion：当 LiDAR 成为相机的“老师”

GAFusion 最核心的洞察是：与其让相机和激光雷达在融合时才见面，不如让激光雷达提前介入，主动“教”相机如何更好地理解三维世界。它的创新可以拆解为以下几个环环相扣的模块。

下图是 GAFusion 的整体架构，清晰地展示了数据如何从输入到输出，以及各个核心模块在流程中的位置：

第一课：教相机“看”深度 (Sparse Depth Guidance, SDG)
- 问题：纯视觉方法（如LSS， Lift-Splat-Shoot）在将2D图像特征“提升”到3D时，需要预测每个像素的深度分布。但这个预测是模糊的、靠“猜”的。
- GAFusion 的创新：它利用激光雷达生成的稀疏但绝对精确的深度图，作为“标准答案”或“强力提示”，去引导相机特征的深度预测过程。这相当于告诉神经网络：“在这些有激光雷达点的像素位置上，深度是精确已知的，你的预测要以它们为准绳。” 这样一来，相机特征就具备了更准确的深度信息，为后续融合打下了坚实基础。
第二课：教相机“盯”物体 (LiDAR Occupancy Guidance, LOG)
- 问题：即使有了深度引导，相机生成的3D特征体中仍包含大量背景信息，计算资源没有被集中在最有价值的物体区域。
- GAFusion 的创新：它借鉴了“占据预测”（Occupancy Prediction）任务的思想，用激光雷达点云生成的占据特征（即知道3D空间中哪些格子被物体占据了），去引导相机生成的3D特征体。这相当于用激光雷达的几何事实，给相机的3D想象画了一个重点：“多关注这些被占据的区域，它们才是可能有物体的地方。”
融合课：全局视角下的自适应融合 (LiDAR-guided Adaptive Fusion Transformer, LGAFT)
- 问题：传统的融合可能是简单的拼接或加权平均，没有考虑不同位置、不同物体应该更信赖哪个传感器。
- GAFusion 的创新：在经过前两步的“教学”后，相机和激光雷达的BEV特征都已经准备就绪。LGAFT模块登场，它利用Transformer的全局注意力机制，让两个模态的BEV特征进行充分的交互。更重要的是，这种交互是自适应的——模型会根据特征本身，动态地学习在哪些区域更应该依赖激光雷达的几何信息，在哪些区域更应该依赖相机的语义信息，实现真正的“按需融合”。
辅助课程：看得更广 (Multi-Scale Dual-Path Transformer, MSDPT)
- 问题：单一的尺度限制了模型对大物体和小物体的感知能力。
- GAFusion 的创新：MSDPT模块通过多尺度设计和双路径处理，有效地扩大了模型在BEV空间中的感受野。这使得模型既能看清近处的大物体，也能捕捉到远处的小物体，提升了整体的感知能力。