当前位置: 首页 > news >正文

ConvNeXt 改进 :ConvNeXt 添加IIA注意机制(信息整合注意力,TGRS 2025),二次创新CNBlock结构 ,实现涨点,独家首发

本文教的是方法,也给出几种改进方法,二次创新结构,百变不离其宗一文带你改进自己模型,科研路上少走弯路。


前言

本文解析的是发表于遥感顶刊 IEEE TGRS 2025 上的核心注意力模块 —— IIA (信息交互注意力)。在实时城市语义分割任务中,如何捕捉图像的长程空间依赖同时兼顾计算效率是长期的难题。IIA 模块打破了传统注意力机制仅在空间或通道单一维度进行建模的局限。它通过**维度置换(Dimension Permutation)**策略,将特征图分别在水平和垂直方向进行解耦,利用轻量化的 1D 卷积捕捉跨维度的结构关联。这种设计不仅显著增强了模型对地物(如建筑物、道路)边缘的判别能力,还以极低的计算开销实现了与复杂 Transformer 相当的特征重塑效果。

理论介绍

IIA注意机制结构图如下:

1. 维度置换策略 (Dimension Permutation)
  • 理论动机:传统 CNN 在处理像素时具有各向同性,难以捕捉特定的几何方向性。IIA 通过转换,将高度(H)或宽度(W)临时“借调”到特征聚合维度,使得后续操作能像处理通道一样处理空间位置,实现了空间信息的跨维度编码。
2. 注意力权重生成 (AttentionWeight 逻辑)
  • 信息压缩:在特定维度上进行全局池化,提取显著特征与背景特征。
  • 1D 卷积建模:它利用 1D 卷积在解耦后的序列上滑动,相比 2D 卷积,它能以更长的感受野(kernel_size=7)捕捉单方向上的连续性,有效解决了遥感图像中细长目标(如河流、车道线)的断裂问题。
3. 并行残差融合 (Parallel Residual Fusion)
  • 作用:分别计算x_h(水平分支)和x_w(垂直分支)的增强特征,这相当于在原始特征的基础上,叠加了一层“水平增强图”和一层“垂直增强图”。这种并行的残差结构确保了模型能够同时从两个正交方向校准特征,极大地缓解了深层网络中由于下采样导致的细微结构丢失现象。

理论详解可以参考链接:论文地址
代码可在这个链接找到:代码地址

训练代码参考和下载:手把手教你使用ConvNeXt训练自己数据集和推理,ConvNeXt模型训练(CVPR 2022),一个能挑战 Vision Transformer 的卷积神经网络,含完整代码和数据集


文章目录

  • 前言
  • 理论介绍
        • 1. 维度置换策略 (Dimension Permutation)
        • 2. 注意力权重生成 (AttentionWeight 逻辑)
        • 3. 并行残差融合 (Parallel Residual Fusion)
  • 🐴一、实战细节
    • ⚡⚡实验结果画图
    • ⚡⚡改进模块代码
    • ⚡⚡使用教程
      • ☑️步骤1
      • ☑️步骤2
      • ☑️步骤3
  • 🐴二、模型结构分析
    • ⚡⚡ 注意机制结构分析
    • ⚡⚡ConvNeXt 结构分析
      • ☑️CNBlock 结构图
    • ⚡⚡二次创新实战
      • ☑️第一种改进手法
        • 📐模块的传参分析教程
      • ☑️第二种改进手法
      • ☑️第三种改进手法
  • 🐴三、论文常用的评估指标
      • ☑️准确率 (Accuracy, ACC)
      • ☑️精确率 (Precision)
      • ☑️召回率 (Recall)
      • ☑️F1分数 (F1 Score)
  • 总结

🐴一、实战细节

⚡⚡实验结果画图

画图效果如下,代码可一键运行

画图代码:

# -*- coding: utf-8 -*-""" @Auth :落花不写码 @File :画图.py @IDE :PyCharm @Motto :学习新思想,争做新青年 """importmatplotlib.pyplotaspltimportpandasaspd
http://www.jsqmd.com/news/592939/

相关文章:

  • C# Winform通用开发框架,支持多语言,多数据库,自动更新,模块化,可用其开发任意CS端系统
  • 5步掌握YimMenu:GTA5终极防崩溃菜单完整指南
  • 利用快马平台快速将notepad++笔记构思转化为可交互网页应用原型
  • 卫星姿态轨道控制simulink仿真/姿轨控 卫星姿轨控仿真,基于simulink 自己在国外...
  • uds bootloader stm32 完整方案 iso15765 iso14429 简化学...
  • 一文读懂 Skill 与 MCP 是什么?有什么区别?(附研发各场景 Skill 推荐清单)
  • Amadeus的知识库 | 传统检索不懂语义?大模型知识有限?—— RAG检索增强生成来帮忙!
  • 雷赛HBS86闭环步进驱动方案代码功能说明
  • 抖音批量下载全攻略:一键保存无水印视频,轻松管理海量内容
  • 多页原理图设计救星:用AD端口交叉引用快速定位信号流向(含Ctrl跳转技巧)
  • Windows快捷键冲突终结者:Hotkey Detective 5分钟快速定位秘籍
  • 永磁同步电机2D电磁仿真模型代码功能说明
  • 打卡信奥刷题(3066)用C++实现信奥题 P6877 [JOI 2020 Final] 只不过是长的领带 / Just Long Neckties
  • 新手避坑指南:用RT-Thread Studio和星火一号,5分钟搞定AHT10温湿度采集与阿里云MQTT上传
  • vant-weapp版本迁移检查清单
  • 3个抖音内容管理痛点与开源下载工具的解决方案
  • MTKClient终极指南:解锁联发科设备的完整刷机与逆向工程工具
  • ComfyUI Manager管理工具完全指南:优化工作流与资源配置的实战手册
  • 2026最权威的五大降AI率方案实测分析
  • 基于S7-200PLC的PID模糊控制电子皮带秤自动配料系统设计:梯形图程序详解与接线图、io...
  • 2025届学术党必备的十大降AI率工具推荐
  • 终极MaaYuan自动化助手:5分钟快速部署代号鸢日常任务解放双手方案
  • 可观测日志存储选型 ES Loki ClickHouse
  • m4s-converter:B站缓存视频本地化全解决方案
  • 并联机器人结构优化与多场景应用探索
  • 双横臂悬架硬点匹配:为学习与初入行小伙伴开启的技术之门
  • OpenCore Legacy Patcher终极指南:如何让旧款Mac焕发新生
  • 基于改进蚁群算法的路径规划功能说明
  • 2025届毕业生推荐的五大AI辅助论文平台推荐榜单
  • 龙芯2k0300 - 走马观碑组Gazebo仿真环境搭建