当前位置: 首页 > news >正文

【UNet 改进 | 注意机制篇】UNet引入iRMB反向残差注意力机制(ICCV 2023),兼顾CNN与Transformer优势,二次创新

本文教的是方法,也给出几种改进方法,二次创新结构,百变不离其宗一文带你改进自己模型,科研路上少走弯路。


前言

在医学图像分割任务中,病灶区域往往形态各异、边界模糊,且经常与周围组织的对比度较低,这要求模型具备极强的特征提取和细节辨别能力。传统的U-Net网络虽然通过跳跃连接融合了多尺度特征,但在处理复杂语义和精细边缘时仍有不足。尤其是在轻量化模型设计中,纯 CNN 模型(如基于 Inverted Residual Block 的网络)受限于静态归纳偏置,缺乏捕获全局上下文的能力;而纯 Transformer 模型虽然具备动态建模长距离依赖的优势,但计算开销巨大。为了解决这些痛点,本文引入了在轻量级网络领域表现出色的 iRMB(Inverted Residual Mobile Block,反向残差移动块)注意力机制。iRMB 巧妙地将 CNN 的高效局部特征提取能力与 Transformer 的动态全局建模能力相结合,通过在反向残差结构中融入轻量级的自注意力模块,极大地提升了模型在低参数量下的特征表达能力。这种创新设计不仅极大降低了计算成本,还让 U-Net 模型能够更加精准、高效地捕获病灶的全局和局部依赖,在医学图像病灶分割上取得显著突破!

论文发表信息

  • 论文标题Rethinking Mobile Block for Efficient Attention-based Models
  • 发表会议/期刊ICCV 2023(计算机视觉顶会)
  • 作者单位:腾讯优图实验室(Tencent Youtu Lab)、浙江大学等
  • 核心贡献:重新思考了轻量级网络的基础组件,提出了一种统一的元移动块(Meta Mobile Block, MMB)。在此基础上,设计了高效的现代反向残差移动块(iRMB),它吸收了 CNN 建模局部特征的高效性以及 Transformer 学习长距离交互的动态建模能力,在精度和效率之间取得了极佳的平衡。
  • 论文地址:https://arxiv.org/abs/2301.01146
  • 代码地址:https://github.com/zhangzjn/EMO

iRMB 核心模块理论

iRMB(反向残差移动块)机制的核心思想在于在经典的倒残差结构(Inverted Residual Block, IRB)中,无缝集成轻量级的高效多头自注意力机制(MHSA)。传统的 IRB 和 Transformer 的 FFN/MHSA 在结构上有着惊人的相似性,iRMB 通过以下创新实现了两者的完美融合:

  1. 统一视角下的元移动块(MMB):作者发现 CNN 中的扩展-深度卷积-投影结构与 Transformer 中的注意力/前馈网络具有高度统一的范式。基于此,iRMB 被设计为一个单残差结构,内部既包含了用于局部特征提取的深度可分离卷积(DW-Conv),也包含了用于全局建模的窗口自注意力。
  2. 高效的窗口自注意力(Window Attention):为了解决标准 MHSA 计算复杂度随空间分辨率呈平方增长的问题,iRMB 采用了局部窗口注意力。它通过重排特征图,在局部窗口内进行注意力计算,显著降低了计算量,同时保留了 Transformer 动态适应输入特征的能力。
  3. 局部与全局特征的深度融合:在 iRMB 内部,输入特征首先通过 1x1 卷积(或自注意力操作)进行维度扩展和交互,然后通过 3x3 深度卷积提取局部多尺度空间上下文,最后通过另一个 1x1 卷积进行投影并使用跳跃连接(Skip Connection)进行融合。结合可选的 SE(Squeeze-and-Excitation)通道注意力,使得 iRMB 能够全面感知像素级的空间几何信息与通道语义依赖。

作为一个高度浓缩了 CNN 与 Transformer 优势的轻量化模块,iRMB 能够让模型在极小的参数增加甚至降低参数的情况下,具备强大的局部细节捕捉和全局上下文感知能力,非常适合应用于计算资源敏感且病灶细节多变的医学图像分割。

训练代码参考和下载:手把手带你完成基于Unet的医学图像分割系统设计与实现,Unet网络架构讲解,Unet复现,使用vibe coding工具,开发一个完整系统,包含完整源码


文章目录

  • 前言
  • 论文发表信息
  • iRMB 核心模块理论
  • 🐴一、实战细节
    • ⚡⚡实验结果画图
    • ⚡⚡iRMB模块代码
    • ⚡⚡使用教程
      • ☑️步骤1
      • ☑️步骤2
      • ☑️步骤3
      • ☑️步骤4
  • 🐴二、模型结构分析
    • ⚡⚡ 注意机制结构分析
    • ⚡⚡二次创新实战
      • ☑️第一种改进手法
        • 📐模块的传参分析教程
  • 🐴三、论文常用的评估指标
      • ☑️像素准确率 (Pixel Accuracy, PA)
      • ☑️精确率 (Precision) 与 召回率 (Recall)
      • ☑️交并比 (Intersection over Union, IoU)
      • ☑️平均交并比 (Mean Intersection over Union, mIoU)
      • ☑️Dice系数 (Dice Coefficient / F1 Score)
  • 总结

🐴一、实战细节

⚡⚡实验结果画图

画图效果如下,代码可一键运行

画图代码:

# -*- coding: utf-8 -*-""" @Auth :落花不写码 @File :画图.py @IDE :PyCharm @Motto :学习新思想,争做新青年 """importmatplotlib.pyplotaspltimportpandasaspdimportos plt.rcParams
http://www.jsqmd.com/news/772480/

相关文章:

  • Kafka:消息队列的原理与实战
  • 3步掌握SMUDebugTool:解锁AMD Ryzen处理器隐藏性能的终极指南
  • 第40篇:Vibe Coding时代:LangGraph 端到端 Coding Agent 总装实战,打通需求、代码、测试、审查、提交完整闭环
  • OpenRGB:三步统一所有RGB设备,打造个性化灯光秀
  • 跨国SaaS产品的本地化测试踩坑记录
  • llm-x:一站式大语言模型本地部署与管理工具详解
  • Cadence Allegro 17.4 实战:手把手教你搞定通孔焊盘与Flash热风焊盘(附避坑要点)
  • 2026Java面试通关指南:从基础到源码,最全高频题+答案详解
  • LG10333 [UESTCPC 2024] 打字 题解
  • 不只是编译:用Chromium源码在VS 2022里搭个专属调试环境,给浏览器功能动手术
  • Arm Cortex-A78AE调试寄存器架构与汽车电子应用
  • MAA明日方舟助手:终极自动化指南,告别重复劳动!
  • CodingBuddy:提升开发效率的智能编程伙伴插件系统
  • 借助Taotoken的API Key管理与审计日志功能加强项目安全
  • 【UNet 改进 | 注意机制篇】UNet引入STA超级令牌注意力机制(CVPR 2023),稀疏关联采样打破高分计算瓶颈,二次创新
  • FPGA安全设计:IFF机制与比特流防护方案
  • 2026年医美行业正规GEO优化服务商推荐与企业选型专业参考 - 产业观察网
  • AISMM模型落地全链路,手把手教你用技术叙事抢占行业话语权
  • ADSP-21565脱机运行实战:用CCES 2.11.1生成LDR文件并烧写SPI Flash的完整流程
  • FanControl终极指南:免费开源Windows风扇控制软件完全配置教程
  • 如何深度定制GBT7714参考文献样式中的会议论文格式:从“//“到专业呈现
  • 中小企业AISMM落地倒计时:政策补贴窗口期仅剩87天,错过将丧失2025年IT合规准入资格
  • SQL Server 2022部署:Windows环境下安装SQL Server 2022+安装.NET Framework 4.7.2+安装SSMS_20260507
  • 向量检索进阶:混合检索策略与深度重排技术实践
  • GetQzonehistory:让时光倒流,重新遇见过去的自己
  • 如何通过构建 AI 智能体找到工作
  • Livox Mid360 + FAST-LIO2实战:从硬件连接到实时建图,我的机器人SLAM入门踩坑全记录
  • 别再只跑MNIST了!用PyTorch和ResNet50从零搭建自己的花分类器(附完整数据集处理代码)
  • 如何快速搭建高效AI绘画插件生态:ComfyUI Manager完整配置指南
  • 3步学会.NET程序分析工具配置管理:打造你的个性化调试环境