当前位置: 首页 > news >正文

ConvNeXt 改进 :ConvNeXt添加MKDConv(多核深度卷积,ICCV 2025),二次创新CNBlock结构 ,独家首发

本文教的是方法,也给出几种改进方法,二次创新结构,百变不离其宗一文带你改进自己模型,科研路上少走弯路。


前言

本文解析的是发表于 ICCVW 2025 的轻量化医学影像分割网络 MK-UNet。在医学图像处理领域,病灶(如肿瘤、息肉)的尺度变化剧烈,传统的单核 CNN 难以平衡局部细节与全局上下文,而 Transformer 模型虽性能优异但计算开销巨大。MK-UNet 提出了一种多核卷积块(MK-Block),通过并行集成不同尺寸的卷积核,使模型在保持极低参数量(仅 1.5M 左右)的同时,具备强大的多尺度特征感知能力。实验在 ISIC 2018 和 Synapse 等数据集上证明,MK-UNet 在分割精度上超越了包括 TransUNet、Swin-UNet 在内的多个重量级模型,是针对资源受限环境下医疗诊断任务的理想方案。

理论介绍

MultiKernelDepthwiseConv如图圈起来部分(摘自论文)

MultiKernelDepthwiseConv (多核深度卷积)

理论设计:空间维度的“分频”处理
在医学影像(如超声、CT、皮肤镜图像)中,目标的尺度往往跨度极大。该模块的核心理论在于特征的分而治之

  • 小核(如 1x1, 3x3):专注于提取局部细节、边缘和微细纹理,防止在下采样中丢失关键解剖结构。
  • 大核(如 5x5, 7x7):提供更广阔的感受野,旨在捕获病灶与周围组织之间的宏观空间关系。

通过将这些核集成在深度卷积(Depthwise Convolution)下,模型能够以极低的参数增量实现多尺度特征的“全景式”扫描。

  • 深度可分离(Groups=Channels):将卷积限制在单一通道内。这意味着即使引入了 7x7 的巨大核,其参数量也仅为标准卷积的1 / C 1/C1/C,实现了性能提升与计算开销的完美解耦。
  • 并行分支(dw_parallel=True):在前向传播中,模块将同一份输入并发地送入不同核尺寸的分支。
  • 动态扩展性:该模块可以根据任务需求(通过kernel_sizes参数)随意扩展卷积路径的数量,具备极强的即插即用性。

医学图像分割最怕“看大丢小”或“看小丢大”。MultiKernelDepthwiseConv通过在每一个 Inverted Residual Block 中嵌入多核机制,确保了每一层特征图都同时包含了来自不同感受野的“投票结果”。这些多尺度特征被彻底打乱并重组,显著提升了模型对模糊边界和细长结构(如血管、裂缝)的分割精度。

理论详解可以参考链接:论文地址
代码可在这个链接找到:代码地址

训练代码参考和下载:手把手教你使用ConvNeXt训练自己数据集和推理,ConvNeXt模型训练(CVPR 2022),一个能挑战 Vision Transformer 的卷积神经网络,含完整代码和数据集


文章目录

  • 前言
  • 理论介绍
  • 🐴一、实战细节
    • ⚡⚡实验结果画图
    • ⚡⚡改进模块代码
    • ⚡⚡使用教程
      • ☑️步骤1
      • ☑️步骤2
      • ☑️步骤3
  • 🐴二、模型结构分析
    • ⚡⚡ 注意机制结构分析
    • ⚡⚡ConvNeXt 结构分析
      • ☑️CNBlock 结构图
    • ⚡⚡二次创新实战
      • ☑️第一种改进手法
        • 📐模块的传参分析教程
      • ☑️第二种改进手法
      • ☑️第三种改进手法
      • ☑️第四种改进手法
  • 🐴三、论文常用的评估指标
      • ☑️准确率 (Accuracy, ACC)
      • ☑️精确率 (Precision)
      • ☑️召回率 (Recall)
      • ☑️F1分数 (F1 Score)
  • 总结

🐴一、实战细节

⚡⚡实验结果画图

画图效果如下,代码可一键运行

画图代码:

# -*- coding: utf-8 -*-""" @Auth :落花不写码 @File :画图.py @IDE :PyCharm @Motto :学习新思想,争做新青年 """importmatplotlib.pyplotaspltimportpandasaspd
http://www.jsqmd.com/news/592950/

相关文章:

  • php实现redis缓存配置和使用方法详解
  • Android DeviceOwner权限高效配置与安全实践指南
  • 浅析PHP如何并行异步处理HTTP请求
  • 5步解锁AMD显卡AI潜能:ollama-for-amd本地化部署全指南
  • FontForge字体设计:从零到专业字体的免费创作之路 ✨
  • 永磁同步电机PMSM三环位置速度电流伺服控制系统的控制模型
  • Ansys Maxwell变压器综合教程:基础操作与案例分析,含模型文件及电性仿真教学
  • 从 IApplicationBuilder 到 RequestDelegate:ASP.NET Core 请求管线的性能与可观测性实战
  • GME-Qwen2-VL-2B-Instruct效果展示:金融产品宣传图与合规文案匹配度审计案例
  • Python 爬虫 scrapy response.css几种找到数据的方法
  • ConvNeXt 改进 :ConvNeXt 添加IIA注意机制(信息整合注意力,TGRS 2025),二次创新CNBlock结构 ,实现涨点,独家首发
  • C# Winform通用开发框架,支持多语言,多数据库,自动更新,模块化,可用其开发任意CS端系统
  • 5步掌握YimMenu:GTA5终极防崩溃菜单完整指南
  • 利用快马平台快速将notepad++笔记构思转化为可交互网页应用原型
  • 卫星姿态轨道控制simulink仿真/姿轨控 卫星姿轨控仿真,基于simulink 自己在国外...
  • uds bootloader stm32 完整方案 iso15765 iso14429 简化学...
  • 一文读懂 Skill 与 MCP 是什么?有什么区别?(附研发各场景 Skill 推荐清单)
  • Amadeus的知识库 | 传统检索不懂语义?大模型知识有限?—— RAG检索增强生成来帮忙!
  • 雷赛HBS86闭环步进驱动方案代码功能说明
  • 抖音批量下载全攻略:一键保存无水印视频,轻松管理海量内容
  • 多页原理图设计救星:用AD端口交叉引用快速定位信号流向(含Ctrl跳转技巧)
  • Windows快捷键冲突终结者:Hotkey Detective 5分钟快速定位秘籍
  • 永磁同步电机2D电磁仿真模型代码功能说明
  • 打卡信奥刷题(3066)用C++实现信奥题 P6877 [JOI 2020 Final] 只不过是长的领带 / Just Long Neckties
  • 新手避坑指南:用RT-Thread Studio和星火一号,5分钟搞定AHT10温湿度采集与阿里云MQTT上传
  • vant-weapp版本迁移检查清单
  • 3个抖音内容管理痛点与开源下载工具的解决方案
  • MTKClient终极指南:解锁联发科设备的完整刷机与逆向工程工具
  • ComfyUI Manager管理工具完全指南:优化工作流与资源配置的实战手册
  • 2026最权威的五大降AI率方案实测分析