当前位置：首页 > news >正文

【技术干货】一文读懂 CBAM 注意力：通道 + 空间双重聚焦，CNN 性能低成本提升

news 2026/7/2 10:25:58

一、引言

在卷积神经网络（CNN）的特征提取流程中，不同通道、不同像素空间位置携带的信息价值天差地别：部分通道是区分目标的核心特征，部分通道仅为无用背景；图像内目标区域信息重要，大面积空白背景无参考价值。

传统卷积对所有特征无差别平等计算，大量算力浪费在冗余信息上。CBAM（Convolutional Block Attention Module，卷积块注意力模块）是轻量化双注意力插件模块，提出「通道注意力 + 空间注意力」串行双层结构，让网络自主学习特征权重，自动强化有效信息、抑制无效噪声。

本文完整拆解 CBAM 核心原理、计算流程、极简 PyTorch 实现、落地优势与使用方案，可直接用于项目开发与技术知识库归档。

二、CBAM 整体核心思想与完整工作流

1. 核心目标

给 CNN 增加双重筛选能力，让模型同时解决两个问题：

通道维度：看什么 —— 识别哪些特征通道是有效信息；
空间维度：看哪里 —— 识别图像哪些像素区域包含目标。

2. 标准串行执行流程

输入特征图 F∈RC×H×W（C 通道、H 高、W 宽），分两步加权：

输入特征先送入通道注意力模块，生成通道权重 Mc，与原图逐通道相乘得到加权特征图 F′；
将 F′ 送入空间注意力模块，生成空间权重 Ms，与特征逐像素相乘，输出最终优化特征图 F′′。

3. 最终效果

经过两次动态加权，关键通道、目标区域特征被放大，无关通道、背景区域特征被压制，模型特征区分能力显著增强。

三、两大子模块详细原理拆解

3.1 通道注意力 Channel Attention

核心作用

评估每一个特征通道的全局重要程度，给每个通道分配 0~1 之间的权重。

计算流程

并行执行全局平均池化、全局最大池化：分别压缩得到两组长度为 C 的一维全局特征向量；
两组向量共享同一个两层 MLP 网络（降维隐藏层 + ReLU 激活，reduction为降维系数，控制参数量）；
MLP 输出结果逐元素相加融合；
Sigmoid 激活映射到 0~1 区间，得到各通道权重 Mc。

数学公式

Mc(F)=σ(MLP(AvgPool(F))+MLP(MaxPool(F))) σ = Sigmoid 激活函数，MLP 为共享两层感知机。

通俗理解

全局平均池化捕获通道全局均值信息，全局最大池化捕获通道最显著特征；共享 MLP 学习通道间依赖关系，最终输出每个通道的重要系数。

3.2 空间注意力 Spatial Attention

核心作用

在通道筛选后的特征图上，定位图像内部关键像素区域，给每个空间位置分配权重。

计算流程

在通道维度并行做全局平均池化、全局最大池化，输出两张单通道 2D 特征图；
两张特征图在通道维度拼接（concat），合并为 2 通道特征；
使用7×7卷积融合空间信息，压缩为单通道；
Sigmoid 激活得到每个像素的空间权重 Ms。

数学公式

Ms(F′)=σ(Conv(Cat(AvgPool(F′),MaxPool(F′))))

通俗理解

通道池化提取每个像素位置的全局统计特征，7× 大卷积融合周边像素关联，精准框选出图像内需要重点关注的目标区域。

四、极简 PyTorch 完整实现

完整代码（可直接嵌入 ResNet/VGG/U-Net）

python

运行

import torch import torch.nn as nn # 通道注意力模块 class ChannelAttention(nn.Module): def __init__(self, in_channels, reduction=16): super().__init__() # 全局平均/最大池化，输出1×1单通道特征 self.avg_pool = nn.AdaptiveAvgPool2d(1) self.max_pool = nn.AdaptiveMaxPool2d(1) # 共享两层MLP：降维+升维 self.mlp = nn.Sequential( nn.Linear(in_channels, in_channels // reduction), nn.ReLU(inplace=True), nn.Linear(in_channels // reduction, in_channels) ) def forward(self, x): b, c, _, _ = x.size() avg_out = self.avg_pool(x).view(b, c) max_out = self.max_pool(x).view(b, c) # 共享MLP处理两组池化特征后相加融合 avg_out = self.mlp(avg_out) max_out = self.mlp(max_out) out = avg_out + max_out # 转为通道权重 [B,C,1,1]，可直接与原图相乘 return torch.sigmoid(out).view(b, c, 1, 1) # 空间注意力模块 class SpatialAttention(nn.Module): def __init__(self): super().__init__() # 输入2通道（平均+最大池拼接），输出1通道权重图 self.conv = nn.Conv2d(2, 1, kernel_size=7, padding=3, bias=False) def forward(self, x): # 通道维度做平均、最大池，保留H、W维度 avg_x = torch.mean(x, dim=1, keepdim=True) max_x, _ = torch.max(x, dim=1, keepdim=True) # 拼接两个单通道特征 concat = torch.cat([avg_x, max_x], dim=1) # 卷积+Sigmoid生成空间权重图 weight = self.conv(concat) return torch.sigmoid(weight) # CBAM完整组合模块（通道→空间串行） class CBAM(nn.Module): def __init__(self, in_channels): super().__init__() self.channel_att = ChannelAttention(in_channels) self.spatial_att = SpatialAttention() def forward(self, x): # 第一步：通道加权 x = x * self.channel_att(x) # 第二步：空间加权 x = x * self.spatial_att(x) return x

使用示例（插入 ResNet 残差块）

python

运行

# 在ResNet每一个Block末尾添加CBAM class ResBlockWithCBAM(nn.Module): def __init__(self, in_c, out_c): super().__init__() self.conv1 = nn.Conv2d(in_c, out_c, 3, padding=1) self.bn1 = nn.BatchNorm2d(out_c) self.relu = nn.ReLU() self.conv2 = nn.Conv2d(out_c, out_c, 3, padding=1) self.bn2 = nn.BatchNorm2d(out_c) self.cbam = CBAM(out_c) def forward(self, x): residual = x out = self.relu(self.bn1(self.conv1(x))) out = self.bn2(self.conv2(out)) out = self.cbam(out) # 插入注意力模块 out += residual out = self.relu(out) return out

五、CBAM 四大核心优势

即插即用，零改造主干无需改动 CNN 主干网络结构，仅在卷积块后插入即可，兼容 ResNet、VGG、MobileNet、U-Net、YOLO 等几乎所有图像网络。
轻量低开销新增参数量、计算量极低，以 ResNet-50 为例，全局插入 CBAM 仅增加约 0.5% 参数，嵌入式、边缘设备场景友好。
多任务通用性能提升图像分类、目标检测、语义分割、医学影像分割、OCR 均有稳定精度提升；标准实验中 ResNet-50 ImageNet Top-1 误差可降低 2% 左右。
强可解释性可可视化通道权重、空间热力图，直观看到模型关注的通道与图像区域，方便模型调优、问题定位。