当前位置：首页 > news >正文

从DETR到CMT：手把手拆解那个把3D坐标‘藏’进特征里的跨模态Transformer

news 2026/6/25 13:52:12

从DETR到CMT：3D目标检测中的跨模态Transformer技术演进

在自动驾驶和机器人感知领域，3D目标检测一直是一个核心挑战。传统方法往往需要复杂的多传感器标定和特征对齐流程，而Transformer架构的出现为这一领域带来了全新的思路。本文将沿着DETR→PETR→CMT这条技术演进路线，深入剖析如何将3D坐标信息"藏"进特征表示中，实现端到端的多模态3D目标检测。

1. 技术演进路线图：从2D到多模态3D检测

1.1 DETR：基于Transformer的端到端2D检测

DETR(DEtection TRansformer)首次将Transformer架构引入目标检测领域，其核心创新在于：

摒弃了传统检测器中的锚框设计和NMS后处理，使用可学习的物体查询直接预测检测结果
二分图匹配损失确保预测结果与真实标注一一对应
全局注意力机制使模型能够捕捉长距离依赖关系

# DETR解码器的简化实现 class DETRDecoder(nn.Module): def __init__(self, num_layers, d_model, nhead): super().__init__() self.layers = nn.ModuleList([ TransformerDecoderLayer(d_model, nhead) for _ in range(num_layers) ]) def forward(self, queries, memory): output = queries for layer in self.layers: output = layer(output, memory) return output

提示：DETR虽然创新性地使用了Transformer架构，但其设计初衷是针对2D检测任务，无法直接处理3D空间中的多模态数据。

1.2 PETR：3D位置编码的突破

PETR(Position Embedding TRansformer)将3D位置信息引入视觉Transformer，主要贡献包括：

视锥空间采样：通过相机参数将2D像素映射到3D空间
3D坐标编码：使用MLP将采样点编码为位置感知特征
位置指导查询：在3D空间中初始化物体查询

特性	DETR	PETR
检测维度	2D	3D
位置编码	2D网格	3D采样点
查询初始化	可学习参数	3D参考点
多模态支持	否	有限

1.3 CMT：跨模态的统一表示

CMT(Cross Modal Transformer)在PETR基础上进一步创新：

统一的多模态坐标编码：同时处理图像和点云数据
隐式特征对齐：通过共享的3D空间坐标实现模态间对齐
鲁棒性设计：支持模态丢弃训练

2. CMT核心技术解析

2.1 坐标编码模块(CEM)设计原理

CEM的核心思想是将不同模态的数据都映射到统一的3D空间表示：

图像分支处理流程：
- 在视锥空间沿深度轴采样d个点
- 通过相机内外参矩阵转换到世界坐标系
- 使用MLP ψ_im编码为位置特征
点云分支处理流程：
- 在BEV空间采样高度信息
- 直接编码网格坐标
- 使用MLP ψ_pc生成位置特征

class CoordinateEncodingModule(nn.Module): def __init__(self, feat_dim): super().__init__() self.image_mlp = nn.Sequential( nn.Linear(3, feat_dim//2), nn.ReLU(), nn.Linear(feat_dim//2, feat_dim) ) self.pc_mlp = nn.Sequential( nn.Linear(3, feat_dim//2), nn.ReLU(), nn.Linear(feat_dim//2, feat_dim) ) def forward(self, image_points, pc_points): image_pe = self.image_mlp(image_points) # [N, d] pc_pe = self.pc_mlp(pc_points) # [M, d] return image_pe, pc_pe

2.2 位置指导查询生成器

CMT的查询生成过程包含以下关键步骤：

3D锚点初始化：在归一化空间均匀采样参考点
坐标反归一化：映射到实际3D场景范围
多模态投影编码：
- 将3D点投影到图像平面
- 保持BEV空间坐标不变
- 分别通过CEM编码
查询融合：相加得到最终查询嵌入

注意：这种查询生成方式确保了检测框预测直接基于3D空间位置，而非传统的2D提案。

2.3 模态丢弃训练策略

为提高模型鲁棒性，CMT采用了创新的训练策略：

随机模态丢弃：以概率p丢弃图像或点云输入
单模态训练：强制模型学习单一模态下的有效表示
梯度平衡：确保多模态性能不受影响

训练阶段的数据流如下图所示：

训练输入 → [随机丢弃] → 单模态/多模态处理 → 损失计算 ↑ 概率控制

3. 实现细节与优化方向

3.1 视锥空间采样技巧

在图像分支的3D点采样中，关键实现细节包括：

深度分布选择：均匀采样vs对数空间采样
采样点数平衡：计算开销与精度的权衡
无效点过滤：剔除超出有效范围的采样点

实际应用中，典型的采样配置为：

参数	推荐值	说明
深度范围	0.1-100m	覆盖常见检测距离
采样点数	32	平衡精度和计算量
采样策略	对数均匀	更关注近处物体

3.2 BEV编码优化

点云分支的BEV编码可以考虑以下优化：

高度压缩：减少垂直维度采样点
多尺度融合：结合不同分辨率的BEV特征
稀疏化处理：仅对前景区域密集编码

def generate_bev_points(bev_size, voxel_size): """生成BEV空间采样点坐标""" x = torch.arange(0, bev_size[0], voxel_size[0]) y = torch.arange(0, bev_size[1], voxel_size[1]) z = torch.zeros(1) # 仅采样地面高度 grid = torch.stack(torch.meshgrid(x, y, z), dim=-1) return grid.view(-1, 3)