当前位置: 首页 > news >正文

YOLOv11 改进 - 注意力机制 IIA信息整合注意力(Information Integration Attention ):精准保留空间位置信息,平衡精度与计算成本 TGRS2025

前言

本文提出信息整合注意力(IIA)机制,并将其集成到YOLOv11中用于遥感图像语义分割。传统CNN难捕捉全局信息,Transformer计算复杂,现有基于Mamba的方法未充分考虑局部信息。IIA利用图像特征空间位置不变性,先融合编解码器特征,再从高度和宽度方向提取序列信息,生成注意力权重因子动态调制特征。其通过通道级拼接、双方向拆分与池化、轻量级1D卷积和残差融合等操作,平衡了精度与计算成本。实验表明,集成IIA的YOLOv11在数据集上提高了精度,且运行高效。

文章目录: YOLOv11改进大全:卷积层、轻量化、注意力机制、损失函数、Backbone、SPPF、Neck、检测头全方位优化汇总

专栏链接: YOLOv11改进专栏

介绍

image-20251223215226508

摘要

在遥感图像语义分割领域,基于卷积神经网络(CNNs)和Transformer的方法已得到广泛研究。然而,由于CNN的局部特征提取特性,其难以捕捉全局上下文信息,而Transformer则受限于二次计算的复杂性。近年来,基于Mamba的状态空间模型引发了大量关注。但现有的基于Mamba的方法在遥感图像分割任务中,未能充分考虑局部信息的重要性。本文构建了一种编解码风格的网络UMFormer,用于遥感图像的语义分割。具体而言,UMFormer采用ResNet18作为编码器,旨在进行初步的图像特征提取。随后,对自注意力机制进行优化,以在多尺度条件下提取不同大小目标的全局信息。为了融合编解码器的特征图信息,构建了另一种注意力结构,用于重建空间信息并捕捉相对位置关系。最后,设计了一个基于Mamba的解码器,以有效对全局和局部信息进行建模。同时,设计了一种利用特征相似性的特征融合机制,目的是将局部信息嵌入到全局信息中。在无人机影像数据集(UAVid)、Vaihingen和Potsdam数据集上进行的大量实验表明,所提出的UMFormer在保持高效运行速度的同时,还提高了精度。相关代码将在以下网址免费公开:https://github.com/takeyoutime/UMFormer

文章链接

论文地址:论文地址

代码地址:代码地址

基本原理

信息整合注意力(Information Integration Attention, IIA)是一种为解决编码器-解码器架构中特征融合痛点设计的轻量级注意力机制,核心创新围绕“精准保留空间位置信息、高效抑制噪声干扰、平衡精度与计算成本”展开。

一、核心逻辑:基于“空间位置不变性”的双方向动态调制

IIA的核心创新逻辑源于对“图像特征空间位置不变性”的利用——即同一目标在图像中的相对位置关系(如“车辆在道路上”“窗户在建筑立面”)具有稳定性,可通过捕捉这种关系强化有效特征、过滤噪声。其本质是“先融合信息→再分方向提取关键序列→最后动态加权增强” 的三阶段递进式处理,具体逻辑链如下:

  1. 基础信息融合:先将编码器的局部特征与解码器的全局特征拼接,形成“多尺度信息池”,确保不丢失原始特征细节;
  2. 双方向序列提取:针对特征图的“高度”和“宽度”两个空间维度,分别提取序列信息(类比人类观察图像时“先看上下范围、再看左右范围”),全面捕捉空间位置关联;
  3. 动态权重调制:为两个方向的序列信息生成“注意力权重因子”,对目标区域赋予高权重(强化关键特征)、对噪声区域赋予低权重(抑制干扰),最后通过残差融合保留基础信息,输出增强后的特征。

二、关键操作创新:四大环节实现“轻量+精准”的平衡

IIA通过四步核心操作落地上述逻辑,每一步均包含针对性创新,既保证效果又控制计算成本:

1. 特征融合环节:通道级拼接,保留多尺度信息完整性

  • 传统问题:传统特征融合常采用“元素相加”或“简单卷积压缩”,易导致局部细节或全局语义丢失(如相加时高层级特征覆盖低层级特征);
  • IIA创新:将编码器输出的局部特征图(如尺寸为C×H×W,C为通道数、H为高度、W为宽度)与解码器输出的全局特征图,按“通道维度”直接拼接,形成新的融合特征图(尺寸为2C×H×W)。这种方式能完整保留两种特征的原始信息,为后续空间位置提取奠定基础,且仅增加通道数、不引入额外计算量。

2. 特征重塑与信息提取环节:双方向拆分+池化组合,精准捕捉空间关系

这是IIA最核心的创新环节之一,通过“拆分维度+双池化”解决传统注意力“全局笼统处理”的缺陷:

  • 步骤1:双方向特征重塑
    将融合特征图拆分为两个独立的“方向特征”:

    • 聚焦“高度方向”:将特征图重塑为“宽度×通道×高度”(W×C×H)的形态,专门捕捉上下方向的位置关系(如“建筑顶部与底部的相对位置”);
    • 聚焦“宽度方向”:将特征图重塑为“高度×通道×宽度”(H×C×W)的形态,专门捕捉左右方向的位置关系(如“道路左侧与右侧的车辆分布”)。
      这种拆分使注意力不再“全局平均用力”,而是针对两个空间维度分别优化,提升位置信息捕捉精度。
  • 步骤2:双池化提取序列信息
    对每个方向的特征图,沿“非目标维度”(高度方向特征沿宽度维度池化、宽度方向特征沿高度维度池化)同时执行平均池化最大池化

    • 平均池化:提取“全局趋势信息”(如整个高度方向的特征分布规律),避免局部噪声干扰;
    • 最大池化:提取“局部显著信息”(如高度方向上的目标峰值特征,如建筑边缘的强响应),突出关键细节。
      两种池化结果拼接后,每个方向的序列信息既包含全局规律、又涵盖局部细节,解决了传统单池化“要么丢全局、要么丢局部”的问题。

3. 注意力调制因子生成环节:轻量级1D卷积,控制计算成本

  • 传统问题:传统注意力(如自注意力)用全连接层生成权重,计算量随特征尺寸呈O(n²)增长;
  • IIA创新:采用1D卷积(核大小为7) 处理双池化后的序列信息:
    • 1D卷积更适配“序列信息”(如高度方向的特征序列),能有效捕捉相邻位置的关联(如“某行特征与上下几行的依赖关系”),且计算量仅为2D卷积的1/H或1/W(H、W为特征图尺寸);
    • 卷积后通过“1D批归一化”稳定训练(避免梯度波动),再用“Sigmoid激活函数”将输出压缩到0-1区间,生成“高度方向调制因子”和“宽度方向调制因子”——因子值越接近1,代表对应位置的特征越重要(如目标区域);越接近0,代表该位置为噪声或干扰(如背景纹理)。

4. 特征增强与输出环节:残差融合,平衡增强与信息保留

  • 传统问题:传统注意力直接用权重因子加权特征,易丢失原始信息(如权重过小导致有效特征被过度抑制);
  • IIA创新:采用“残差融合”策略:
    1. 先将高度、宽度方向的调制因子分别与原始融合特征图进行“逐元素相乘”,得到两个方向的“增强特征”(目标区域被放大、噪声被削弱);
    2. 再将这两个增强特征与原始融合特征图进行“逐元素相加”(残差连接),确保既保留原始特征的基础信息,又叠加注意力增强的效果。
      这种方式避免了“过度增强”或“信息丢失”,让输出特征同时具备“精准定位”和“强判别性”。

核心代码

class IIA(nn.Module):def __init__(self, channel):super(IIA, self).__init__()self.attention = AttentionWeight(channel)def forward(self, x):# b, w, c, hx_h = x.permute(0, 3, 1, 2).contiguous()x_h = self.attention(x_h).permute(0, 2, 3, 1)# b, h, c, wx_w = x.permute(0, 2, 1, 3).contiguous()x_w = self.attention(x_w).permute(0, 2, 1, 3)# b, c, h, w# x_c = self.attention(x)# return x + 1 / 2 * (x_h + x_w)  # 89.8	92.5	81.9return x + x_h + x_w

实验

脚本

import warnings
warnings.filterwarnings('ignore')
from ultralytics import YOLO
# 
if __name__ == '__main__':
#     修改为自己的配置文件地址model = YOLO('./ultralytics/cfg/models/11/yolov11-IIA.yaml')
#     修改为自己的数据集地址model.train(data='./ultralytics/cfg/datasets/coco8.yaml',cache=False,imgsz=640,epochs=10,single_cls=False,  # 是否是单类别检测batch=8,close_mosaic=10,workers=0,optimizer='SGD',amp=True,project='runs/train',name='IIA',)

结果

在这里插入图片描述

http://www.jsqmd.com/news/798554/

相关文章:

  • windows系统安装wsl安装opencode教程
  • YOLOv11 改进 - 注意力机制 iRMB 倒置残差移动块:硬件感知优化破解计算瓶颈,提升小目标检测鲁棒性
  • Pix2Text ONNX模型文件缺失问题深度解析与完整解决方案指南
  • 智能家居信任危机:从安全隐私到开放标准的产业转型之路
  • 莱迪思Power Manager芯片:可编程电源管理方案解析与应用
  • P16434 [APIO 2026 中国赛区] 蛋糕 个人题解
  • 2026高精度称重传感器十大品牌,广东犸力稳居行业标杆 - 品牌速递
  • 如何让Windows 11运行如新:Win11Debloat终极优化指南
  • ESP32 WROVER模组4MB PSRAM保姆级配置指南:从menuconfig到分区表避坑
  • Codex客户端Mac低版本安装解决方法
  • 2026压力变送器十大品牌推荐,广东犸力工业变送实力大厂 - 品牌速递
  • CSS如何使用Less构建可扩展的导航栏_通过嵌套与Mixin实现灵活扩展
  • 从童年溺水到芯片设计:工程师如何用确定性思维对抗不确定性风险
  • MySQL 复制表
  • 【AI原生架构黄金法则】:SITS 2026现场实录的7条反直觉设计铁律(仅限首批参会专家内部流出)
  • HarmonyOS 6 ArkUI 粒子动画(Particle)场特效使用文档
  • 5分钟快速解锁加密音乐文件:Unlock Music终极使用指南
  • 2026微型压力变送器10大排行,广东犸力小巧精密稳居头部 - 品牌速递
  • 从零搭建个人科研Agent:混合模型策略与LangGraph核心闭环实战(二):搜索系统升级与报告质量优化
  • 2026 三维力测力传感器 10 大排行,广东犸力多维传感领军品牌 - 品牌速递
  • 5分钟掌握微博内容永久备份的终极免费工具
  • HTML5 教程
  • 冰雪点卡重制版老玩家开荒全攻略:欧欧手游出品的公平复古传奇
  • 消息队列介绍:原理、作用、选型与实战问题解决方案
  • 【MATLAB源码-第435期】基于MATLAB的FDM、FDMA、OFDM与OFDMA系统仿真对比时域图,频谱,误码率
  • 2026年S型测力传感器十大品牌榜单,广东犸力S型传感行业知名大厂 - 品牌速递
  • 网页视频失去焦点自动暂停解决
  • AI视频超分实战:Topaz Video Enhance AI 从入门到精通
  • 2026微型测力传感器10大排行,广东犸力稳居行业前列席位 - 品牌速递
  • bootstrap怎么实现鼠标悬停切换图片预览功能