当前位置：首页 > news >正文

自动驾驶感知---纯视觉SOTA的Occupancy

news 2026/6/2 21:11:29

1 前言

基于纯视觉的OCC，本身并不多，早期的BEVFormer也支持纯视觉，但纯视觉的效果是不如激光雷达的，因此不少车企基于此做了工程上的优化，参与到BEV的量产当中。后来特斯拉引领了OCC的量产，不少智驾公司又开始研发OCC，目前市面上都已经在卷端到端，OCC的量产也就1-2年的窗口期。

基于视觉的 3D 占用预测在自动驾驶、机器人学和增强现实等领域具有重要应用，其目标是根据视觉输入估计 3D 空间中每个体素的占用状态和语义标签。但单目视觉在深度估计上存在固有局限性，从单张图像中估计深度具有歧义性，而立体视觉因需要大量校准和重新校准，在实际应用中受到限制。因此，采用多视图时间融合是一种更有前景的方法。

本篇博客主要介绍清华大学交叉信息院研究组发表于欧洲计算机视觉国际会议（ECCV）的一篇论文。

2 CVT-Occ

该框架对多帧、多视角图像进行处理，首先通过图像骨干网络提取多尺度特征。随后，这些来自图像空间的特征被转换为鸟瞰图（BEV）空间特征，经 BEV 编码器优化后生成三维体素表示。目前已有大量研究聚焦于从图像空间到 BEV 特征的转换问题。其中一类工作遵循 LSS 提出的 “提升（lifting）” 范式，它们显式预测深度图，并将多视角图像特征提升至 BEV 平面。另一类工作继承了 DETR3D 中 “从三维到二维查询” 的思路，通过可学习查询（learnable queries）借助交叉注意力机制从图像特征中提取信息。

论文提出的代价体时序（CVT）模块具有通用性，能够兼容不同的图像到体素空间特征转换策略。在实验验证中，我们以 BEVFormer 为基础生成三维体素特征，随后通过 CVT 模块对这些特征进行优化和增强，以此证明我们的方法在利用时空动态信息提升三维场景理解能力方面的有效性和适应性。最后，通过占用预测解码器生成最终的体素预测结果。

2.1 架构

CVT的主要架构如下所示：

（1）2D 特征与 3D 体素初始化

用 ResNet 提取多帧图像 2D 特征，通过相机内参 / 外参投影构建当前帧 3D 体素特征（BEV 体素化）。

（2）代价体时序融合模块（核心）

视线采样：对每个体素，从相机光心出发，沿视线方向采样 K 个深度候选点（如 K=4）。
时序几何对齐：将候选点通过历史帧相机位姿变换，投影到历史 3D 体素空间，采样对应特征。
代价体构建：拼接所有历史帧采样特征，形成 (H,W,D,K・C)代价体，用 3D 卷积学习时序视差关联。
注意力修正：卷积 + Sigmoid 生成权重图，与当前体素特征逐元素相乘，强化可靠深度特征、抑制歧义区域。

（3）占据解码

修正后的 3D 体素特征经上采样与卷积，输出体素级占据概率（占用 / 空闲 / 未知）。

2.2 实验结果

性能 SOTA：mIoU 达58.3%，较 BEVFormer 基线提升2.8%，显著优于 SOLOFusion 等方法。
类别提升显著：车辆（+4.5%）、自行车（+4.2%）、建筑（+4.1%）、植被（+4.0%）等硬样本提升明显。
计算高效：相比图像级代价体，FLOPs 降低约 70%，参数增量 < 5%，适合实时自动驾驶场景。
可视化对比：能精准还原远处 / 遮挡区域 3D 结构，歧义区域预测更清晰。

3 结论

针对纯视觉3D占据预测存在的单目深度模糊、传统时序融合几何约束不足与图像级代价体算力损耗大的问题，提出CVT-Occ代价体时序融合方法，在3D体素空间构建时序代价体，结合视线深度采样、跨帧几何对齐实现特征优化，该轻量化模块可灵活嵌入现有模型，在Waymo数据集斩获优异精度，同时大幅削减计算开销，适配自动驾驶实际部署需求。

参考论文：《CVT-Occ: Cost Volume Temporal Fusion for 3D Occupancy Prediction》

查看全文

http://www.jsqmd.com/news/938051/