当前位置: 首页 > news >正文

自动驾驶感知---纯视觉SOTA的Occupancy

1 前言

基于纯视觉的OCC,本身并不多,早期的BEVFormer也支持纯视觉,但纯视觉的效果是不如激光雷达的,因此不少车企基于此做了工程上的优化,参与到BEV的量产当中。后来特斯拉引领了OCC的量产,不少智驾公司又开始研发OCC,目前市面上都已经在卷端到端,OCC的量产也就1-2年的窗口期。

基于视觉的 3D 占用预测在自动驾驶、机器人学和增强现实等领域具有重要应用,其目标是根据视觉输入估计 3D 空间中每个体素的占用状态和语义标签。但单目视觉在深度估计上存在固有局限性,从单张图像中估计深度具有歧义性,而立体视觉因需要大量校准和重新校准,在实际应用中受到限制。因此,采用多视图时间融合是一种更有前景的方法。

本篇博客主要介绍清华大学交叉信息院研究组发表于欧洲计算机视觉国际会议(ECCV)的一篇论文。

2 CVT-Occ

该框架对多帧、多视角图像进行处理,首先通过图像骨干网络提取多尺度特征。随后,这些来自图像空间的特征被转换为鸟瞰图(BEV)空间特征,经 BEV 编码器优化后生成三维体素表示。目前已有大量研究聚焦于从图像空间到 BEV 特征的转换问题。其中一类工作遵循 LSS 提出的 “提升(lifting)” 范式,它们显式预测深度图,并将多视角图像特征提升至 BEV 平面。另一类工作继承了 DETR3D 中 “从三维到二维查询” 的思路,通过可学习查询(learnable queries)借助交叉注意力机制从图像特征中提取信息。

论文提出的代价体时序(CVT)模块具有通用性,能够兼容不同的图像到体素空间特征转换策略。在实验验证中,我们以 BEVFormer 为基础生成三维体素特征,随后通过 CVT 模块对这些特征进行优化和增强,以此证明我们的方法在利用时空动态信息提升三维场景理解能力方面的有效性和适应性。最后,通过占用预测解码器生成最终的体素预测结果。

2.1 架构

CVT的主要架构如下所示:

(1)2D 特征与 3D 体素初始化

  • 用 ResNet 提取多帧图像 2D 特征,通过相机内参 / 外参投影构建当前帧 3D 体素特征(BEV 体素化)。

(2)代价体时序融合模块(核心)

  • 视线采样:对每个体素,从相机光心出发,沿视线方向采样 K 个深度候选点(如 K=4)。
  • 时序几何对齐:将候选点通过历史帧相机位姿变换,投影到历史 3D 体素空间,采样对应特征。
  • 代价体构建:拼接所有历史帧采样特征,形成 (H,W,D,K・C)代价体,用 3D 卷积学习时序视差关联。
  • 注意力修正:卷积 + Sigmoid 生成权重图,与当前体素特征逐元素相乘,强化可靠深度特征、抑制歧义区域。

(3)占据解码

  • 修正后的 3D 体素特征经上采样与卷积,输出体素级占据概率(占用 / 空闲 / 未知)。

2.2 实验结果

  • 性能 SOTA:mIoU 达58.3%,较 BEVFormer 基线提升2.8%,显著优于 SOLOFusion 等方法。
  • 类别提升显著:车辆(+4.5%)、自行车(+4.2%)、建筑(+4.1%)、植被(+4.0%)等硬样本提升明显。
  • 计算高效:相比图像级代价体,FLOPs 降低约 70%,参数增量 < 5%,适合实时自动驾驶场景。
  • 可视化对比:能精准还原远处 / 遮挡区域 3D 结构,歧义区域预测更清晰。

3 结论

针对纯视觉3D占据预测存在的单目深度模糊、传统时序融合几何约束不足与图像级代价体算力损耗大的问题,提出CVT-Occ代价体时序融合方法,在3D体素空间构建时序代价体,结合视线深度采样、跨帧几何对齐实现特征优化,该轻量化模块可灵活嵌入现有模型,在Waymo数据集斩获优异精度,同时大幅削减计算开销,适配自动驾驶实际部署需求。

参考论文:《CVT-Occ: Cost Volume Temporal Fusion for 3D Occupancy Prediction》

http://www.jsqmd.com/news/938051/

相关文章:

  • 技术深度解析:Java企业级IEC104工业通信协议高效实现架构
  • 为什么inf-retriever-v1-pro在推理密集型检索任务中表现卓越?完整指南
  • ROFL-Player:英雄联盟回放分析终极指南
  • 开源模块化履带机器人平台UNITRAC:从设计到制作全解析
  • 网络资源获取的革命性方案:如何用res-downloader破解平台限制,实现一键无水印下载?
  • 2026年薪酬设计必看:数据来源决定公平性
  • 2026年杭州工程合同律师选对=省心 王耀强律师值得推荐 - 本地品牌推荐
  • 为什么AI内容团队越来越重视评论区数据?
  • 终极指南:5分钟搭建基于多智能体LLM交易系统的完整教程
  • 终极指南:如何用开源ImageJ快速搞定科学图像处理难题 [特殊字符]
  • AtlasOS终极指南:3个简单步骤让Windows性能提升40%的秘密
  • 高效开源工具深度解析:Czkawka三款跨平台重复文件清理工具实战指南
  • Kronos金融预测模型:揭秘AI如何理解K线语言的技术革命
  • 洛雪音乐音源技术解析与实战配置指南
  • KBIR-inspec社区贡献指南:如何参与项目开发与改进
  • PP-OCRv5_mobile_rec_safetensors全面解析:新一代多语言文本识别模型如何突破四大语言识别难题
  • 30V,250mA,1.6uA IQ,低压差线性稳压器HC9627
  • 2026 年 6 月教资备考避坑指南:免费题库软件实测 - 讲清楚了
  • 2026商用多联机:能效物联与可靠性的全面对决 - 资讯纵览
  • 如何永久保存微信聊天记录:WeChatMsg的完整本地化数据备份方案
  • TradingAgents-CN:5分钟快速上手的终极智能投资分析平台
  • SAP-ABAP:SAP 简单报表输出开发系列(共6篇) 第五篇:SAP 报表多格式输出:Excel/PDF 批量导出功能实现
  • Windows任务栏变透明:TranslucentTB让你的桌面焕然一新
  • 抖音无水印下载终极指南:一键批量获取高清视频与封面
  • 绍兴柯桥区阳台地漏疏通附近疏通管道电话,全天候上门服务 - 天堂海洋
  • 终极游戏性能优化:如何用OptiScaler免费提升显卡200%潜力
  • Ultimate Vocal Remover GUI:基于深度神经网络的音频分离技术解析与实践指南
  • AgentRAG:企业AI从“查资料”到“会思考”的内核升级
  • MD-Judge-v0.1技术内幕:32层隐藏网络如何实现精准安全评估
  • 牛客网最新大厂Java高频面试题精选(附答案)