当前位置：首页 > news >正文

023、CBAM 配合 C3k2 使用的最佳实践：先通道注意力再 C3k2 还是反过来

news 2026/6/26 3:08:01

023、CBAM 配合 C3k2 使用的最佳实践：先通道注意力再 C3k2 还是反过来

一个让我熬夜到凌晨三点的bug

去年年底做工业缺陷检测项目，客户要求模型在保持YOLOv8s推理速度的前提下，把小目标召回率从78%拉到85%以上。我第一反应就是往neck里塞CBAM——这玩意儿在分类任务上效果炸裂，检测任务上应该也能白嫖几个点。

结果跑了一周消融实验，发现一个诡异现象：同样的CBAM模块，放在C3k2前面和后面，mAP@0.5差了将近2个点。更离谱的是，不同数据集上这个差距的方向还不一样——PCB缺陷数据集上先CBAM后C3k2好，但遥感数据集上反过来更好。

当时我对着tensorboard的曲线图，脑子里只有一个想法：这玩意儿到底该放哪？网上搜了一圈，全是"CBAM可以插入任何位置"这种废话。没办法，只能自己动手拆解。

先搞清楚C3k2和CBAM各自在干啥

C3k2是YOLOv8/v9/v10里那个带k个卷积的CSP结构变体，核心逻辑是：输入先过两个分支，一个分支做常规卷积，另一个分支做k次卷积（k=2时就是两个3x3），然后concat再过一层1x1。这玩意儿本质上是在做多尺度特征融合，把不同感受野的信息揉在一起。

CBAM呢？通道注意力+空间注意力，先对特征图做全局平均池化+MLP得到通道权重，再对每个位置做空间权重。它的核心是特征重标定——告诉模型哪些通道和哪些位置更重要。

问题来了：C3k2做的是"融合"，CBAM做的是"筛选"。这两个操作谁先谁后，直接影响信息流。

实验设计：我到底测了什么

为了搞清楚这个问题，我设计了三组对比实验，在三个不同数据集上跑：

基线：YOLOv11s（官方权重，neck部分用C3k2）
方案A：CBAM → C3k2（先通道注意力再C3k2）
方案B：C3k2 → CBAM（先C3k2再通道注意力）
方案C：C3k2内部嵌入CBAM（在C3k2的shortcut分支里加CBAM，这个后面单独讲）

数据集选了三个差异大的：

VisDrone（无人机视角，小目标多，背景复杂）
PCB缺陷（工业场景，目标小且密集）
COCO子集（通用场景，只取person和car两类，方便快速验证）

每个实验跑5个seed，取平均。batch size=16，输入640x640，训练300epoch，用AdamW+余弦退火。

代码实现：别踩我踩过的坑

先贴CBAM的标准实现，注意这里有个坑——很多人的CBAM实现里空间注意力用的7x7卷积，但YOLO的特征图分辨率大（neck里80x80甚至160x160），7x7卷积计算量爆炸。我改成3x3，效果几乎没差，速度提升明显。

classCBAM(nn.Module):def__init__(self,channels,reduction=16,kernel_size=3):super().__init__()# 通道注意力：这里踩过坑，MLP的中间层不要用ReLU，用SiLU效果更好self.channel_attention=nn.Sequential(nn.AdaptiveAvgPool2d(1),nn.Conv2d(channels,channels//reduction,1,bias=False),nn.SiLU(inplace=True),# 别用ReLU，梯度容易死nn.Conv2d(channels//reduction,channels,1,bias=False),nn.Sigmoid())# 空间注意力：3x3卷积比7x7快3倍，效果差0.1个点self.spatial_attention=nn.Sequential(nn.Conv2d(2,1,kernel_size,padding=kernel_size//2,bias=False),nn.Sigmoid())defforward(self,x):# 通道注意力ca=self.channel_attention(x)x=x*ca# 空间注意力sa=self.spatial_attention(torch.cat([x.mean(dim=1,keepdim=True),x.max(dim=1,keepdim=True)[0]],dim=1))x=x*sareturnx

接下来是修改YOLOv11的neck。找到ultralytics/nn/modules/block.py里的C3k2类，在__init__里加一个参数use_cbam和cbam_position。

classC3k2(C2f):def__init__(self,c1,c2,n=1,c3k=False,e=0.5,use_cbam=False,cbam_position='before'):super().__init__(c1,c2,n,c3k,e)self.use_cbam=use_cbam self.cbam_position=cbam_positionifuse_cbam:# 注意：CBAM的输入通道是c2，因为C3k2输出通道是c2self.cbam=CBAM(c2)defforward(self,x):# 先CBAM再C3k2ifself.use_cbamandself.cbam_position=='before':x=self.cbam(x)x=super().forward(x)# 先C3k2再CBAMifself.use_cbamandself.cbam_position=='after':x=self.cbam(x)returnx

然后在ultralytics/nn/tasks.py里找到parse_model函数，在解析neck部分时传入参数。这里有个细节：YOLOv11的配置文件里，neck部分的C3k2后面跟着的是[-1, 3, C3k2, [256, True, 0.5]]这种格式，我们需要在列表里加两个参数。

# 在parse_model函数里，处理C3k2的地方ifmin(C3k2,):args=[ch[f],ch[f],n,*args[1:]]# 原始参数# 这里加use_cbam和cbam_position，从配置文件读取args.extend([use_cbam,cbam_position])

配置文件yaml里这样写：

# neck部分-[-1,1,CBAM,[256]]# 方案A：先CBAM-[-1,3,C3k2,[256,True,0.5]]# 或者-[-1,3,C3k2,[256,True,0.5]]# 方案B：后CBAM-[-1,1,CBAM,[256]]

消融实验数据：结果让我意外

跑完所有实验，数据如下（mAP@0.5，括号里是相对基线的提升）：

方案	VisDrone	PCB缺陷	COCO子集
基线	42.3%	86.1%	91.2%
方案A（CBAM→C3k2）	44.1% (+1.8)	87.5% (+1.4)	91.8% (+0.6)
方案B（C3k2→CBAM）	43.5% (+1.2)	88.3% (+2.2)	92.1% (+0.9)
方案C（内部嵌入）	43.8% (+1.5)	87.9% (+1.8)	91.9% (+0.7)

有意思的来了：

VisDrone（小目标+复杂背景）：方案A最好。先做通道注意力，把背景噪声压下去，再让C3k2做融合，C3k2能更专注于目标区域的特征。
PCB缺陷（密集小目标）：方案B最好。先让C3k2把不同尺度的缺陷特征融合好，再让CBAM做筛选，因为PCB缺陷的纹理细节很关键，先融合再筛选能保留更多细节。
COCO子集（通用场景）：方案B略好，但差距不大。通用场景下两种方案都能用。

方案C（内部嵌入）表现中庸，但参数量增加了（因为C3k2内部有多个卷积层，每个都加CBAM太浪费）。