当前位置：首页 > news >正文

在YOLOv11中嵌入Coordinate Attention坐标注意力模块

news 2026/6/11 11:52:04

从一次漏检说起

上周调一个产线缺陷检测模型，小目标工件在图像边缘频繁漏检。常规的卷积操作对位置信息不敏感，空间注意力又容易忽略通道关系。试了SE、CBAM都不够理想，直到翻出Coordinate Attention那篇论文——这玩意儿对位置信息建模的方式有点意思，正好拿来试试水。

坐标注意力的核心思路

Coordinate Attention（CA）最大的特点是把通道注意力拆成两个方向：水平与垂直。先做两个方向的全局池化，分别捕捉横向和纵向的长距离依赖，再合并成特征图做卷积。这样既保留了位置信息，又建立了通道间关系，计算量还不大。

模块实现细节

直接上代码，我们写一个PyTorch版本的CA模块：

importtorchimporttorch.nnasnnclassCoordAtt(nn.Module):"""坐标注意力模块，注意输入特征图的尺寸最好别太小"""def__init__(self,in_channels,reduction=32):super().__init__()# 这里reduction别设太大，小特征图容易崩reduced_channels=max(8,in_channels//reduction)# 加个下限保平安self.pool_h=nn.AdaptiveAvgPool2d((None,1))# 横向池化self.pool_w=nn.AdaptiveAvgPool2d((1,None))# 纵向池化# 1x1卷积压缩通道数self.conv1=nn.Conv2d(in_channels,reduced_channels,kernel_size=1)self.bn1=nn.BatchNorm2d(reduced_channels)self.act=nn.ReLU(inplace=True)# 两个方向的特征卷积self.conv_h=nn.Conv2d(reduced_channels,in_channels,kernel_size=1)self.conv_w=nn.Conv2d(reduced_channels,in_channels,kernel_size=1)# 初始化权重，这里用kaiming初始化比较稳forminself.modules():ifisinstance(m,nn.Conv2d):nn.init.kaiming_normal_(m.weight,mode='fan_out')ifm.biasisnotNone:nn.init.constant_(m.bias,0)defforward(self,x):identity=x# 残差连接用n,c,h,w=x.size()# 横向池化分支x_h=self.pool_h(x)# 输出形状: [n, c, h, 1]# 纵向池化分支x_w=self.pool_w(x).permute(0,1,3,2)# 输出形状: [n, c, w, 1]，转置一下对齐# 拼接两个方向的特征y=torch.cat([x_h,x_w],dim=2)# [n, c, h+w, 1]y=self.conv1(y)y=self.bn1(y)y=self.act(y)# 重新拆分成两个方向y_h,y_w=torch.split(y,[h,w],dim=2)y_w=y_w.permute(0,1,3,2)# 转置回来# 生成注意力权重att_h=torch.sigmoid(self.conv_h(y_h))att_w=torch.sigmoid(self.conv_w(y_w))# 应用注意力out=identity*att_h*att_wreturnout

几个关键点：池化操作后记得做转置对齐；reduction别贪心，通道数太少效果会打折；残差连接必须加，不然训练容易崩。

集成到YOLOv11的Backbone

YOLOv11的CSPDarknet53结构比较规整，我习惯加在C3模块后面：

classC3_CA(nn.Module):"""C3模块后面接CA，实测这个位置效果最好"""def__init__(self,c1,c2,n=1,shortcut=True):super().__init__()self.c3=C3(c1,c2,n,shortcut)# 原版C3模块self.ca=CoordAtt(c2)# 坐标注意力defforward(self,x):x=self.c3(x)x=self.ca(x)# 注意这里顺序，先C3再CAreturnx

替换的时候要小心通道数对齐。建议从浅层开始加，比如替换第2、3、4个C3模块。深层特征图尺寸太小，加了可能适得其反。

训练配置要点

改完结构后训练有几个坑：

学习率要重置，用预训练权重时先warm-up 3个epoch
初始阶段loss可能震荡，别急着调参，跑完10个epoch再看趋势
显存占用会增加5%左右，batch size设小点

# yolov11_ca.yaml 配置文件片段backbone:# [from, repeats, module, args][[-1,1,Conv,[64,6,2,2]],# 0-P1/2[-1,1,Conv,[128,3,2]],# 1-P2/4[-1,3,C3_CA,[128]],# 这里替换成C3_CA[-1,1,Conv,[256,3,2]],# 3-P3/8[-1,6,C3_CA,[256]],# 这里也替换[-1,1,Conv,[512,3,2]],# 5-P4/16[-1,9,C3_CA,[512]],# 深层替换一个就够了[-1,1,Conv,[1024,3,2]],# 7-P5/32[-1,3,C3,[1024]],[-1,1,SPPF,[1024,5]],]