当前位置: 首页 > news >正文

YOLO26改进 - 卷积Conv 融合MogaNet中的ChannelAggregationFFN(通道聚合前馈网络),优化通道维度的特征

# 前言
本文介绍了MogaNet中的通道聚合前馈网络(ChannelAggregationFFN)模块在YOLO26中的结合应用。ChannelAggregationFFN模块通过卷积、激活和特征分解操作,能有效减少通道信息冗余,提高信息利用率。我们将该模块集成到YOLO26的检测头部分,并在相关配置文件中进行设置。MogaNet在多个视觉基准测试中表现优异,将其ChannelAggregationFFN模块应用于YOLO26,有望提升目标检测的准确性和效率,验证了方法的有效性和应用潜力。

文章目录: YOLO26改进大全:卷积层、轻量化、注意力机制、损失函数、Backbone、SPPF、Neck、检测头全方位优化汇总

专栏链接: YOLO26改进专栏

@

目录
  • 介绍
    • 摘要
  • 文章链接
  • 基本原理
      • 1. 多阶门控聚合模块(Multi-Order Gated Aggregation)
      • 2. 通道聚合模块(CA block)
  • 核心代码
  • 实验
    • 脚本
    • 结果

介绍

image-20241106214543871

摘要

在计算机视觉任务里,现代卷积网络借助尽可能全局地对内核进行语境化操作,展现出了极为可观的应用潜力。不过,深度神经网络(DNN)领域中多阶博弈论交互方面的最新研究进展,揭示了现代卷积网络存在表示瓶颈,具体表现为表达性交互未能通过增大内核尺寸而得到有效编码。为解决这一问题,我们提出了一个全新的现代卷积网络系列,名为 MogaNet,其用于在纯卷积网络模型中开展判别性视觉表示学习,具备良好的复杂度 - 性能权衡特性。MogaNet 将概念简洁却成效显著的卷积和门控聚合操作封装于一个紧凑模块内,能够高效地收集判别性特征并对其进行自适应语境化处理。相较于 ImageNet 以及包含 COCO 对象检测、ADE20K 语义分割、2D 和 3D 人体姿势估计与视频预测等多种下游视觉基准上的最先进的视觉Transformer(ViT)和卷积神经网络(ConvNet),MogaNet 呈现出卓越的可扩展性、令人惊叹的参数效率以及具备竞争力的性能。尤其值得关注的是,MogaNet 在 ImageNet - 1K 数据集上,以 5.2M 和 181M 个参数分别实现了 80.0% 和 87.8% 的准确率,性能优于 ParC - Net 和 ConvNeXt L,同时分别节省了 59% 的浮点运算次数(FLOP)和 17M 个参数。该网络的源代码可在 https://github.com/Westlake - AI/MogaNet 处获取。

文章链接

论文地址:论文地址

代码地址:代码地址

基本原理

MogaNet是一种新型的卷积网络架构,旨在通过多阶门控聚合机制来增强视觉表示学习。以下是MogaNet的一些关键特性和创新点:

  1. 多阶卷积:MogaNet设计了三组并行的多阶深度卷积,这种结构使得网络能够在不同的交互尺度上学习信息,从而捕捉到更丰富的特征。这种设计旨在克服传统卷积网络在捕捉全局依赖性方面的局限性。

  2. 门控操作:MogaNet引入了双分支激活门控操作,允许网络在特征聚合时动态选择重要的特征。这种门控机制有助于网络在处理复杂的视觉任务时,自动调整对不同特征的关注程度。

  3. 通道聚合模块:为了确保网络能够学习到有意义的特征,MogaNet还提出了通道聚合模块。这一模块通过强化不同交互尺度的特征学习,进一步提升了网络的表现。

  4. 与ViT的比较:MogaNet在设计上借鉴了Vision Transformer(ViT)的优点,尤其是在全局信息处理方面。尽管ViT在图像分类任务中表现出色,但其通常需要大量的预训练数据。MogaNet通过结合卷积的局部性和ViT的全局性,提供了一种更高效的特征提取方式。

  5. 性能评估:MogaNet在多个基准测试上表现优异,包括ImageNet、COCO和ADE20K等数据集。与传统的卷积网络和ViT相比,MogaNet在准确性和效率上均有显著提升。

  6. 应用前景:MogaNet的设计理念和架构为未来的视觉任务提供了新的思路,尤其是在需要处理复杂场景和高维数据的应用中,如自动驾驶、医疗影像分析等。

在MogaNet架构中,多阶门控聚合模块(Multi-Order Gated Aggregation)和通道聚合模块(CA block)是两个关键的组成部分,它们共同提升了网络的特征学习能力和效率。以下是对这两个模块的详细介绍:

1. 多阶门控聚合模块(Multi-Order Gated Aggregation)

  • 设计理念:多阶门控聚合模块旨在通过多层次的特征交互来增强网络的表达能力。该模块通过引入不同阶数的卷积操作,允许网络在多个尺度上捕捉特征,从而更好地理解图像中的复杂模式。

  • 功能:该模块通过门控机制动态选择和聚合特征。具体来说,它会根据输入特征的上下文信息,决定哪些特征是重要的,哪些可以被忽略。这种自适应的特征选择过程有助于减少噪声,提高模型的鲁棒性。

  • 实现方式:在实现上,多阶门控聚合模块通常包含多个并行的卷积层,每个层负责提取不同尺度的特征。通过对这些特征进行加权聚合,网络能够有效地整合来自不同层次的信息。

2. 通道聚合模块(CA block)

  • 设计理念:通道聚合模块的主要目的是解决现有卷积网络中通道信息冗余的问题。许多传统方法在通道混合时使用线性投影,导致了参数的浪费和计算效率的低下。CA block通过重新分配通道特征,旨在提高信息的利用率。

  • 功能:CA block通过对输入特征进行通道-wise的重新分配,增强了网络对重要特征的关注。它能够自适应地调整通道的权重,使得网络在处理高维特征时更加高效。

  • 实现方式:CA block通常包括一个轻量级的卷积层和激活函数(如GELU),通过这些操作,网络能够在高维隐藏空间中重新分配通道特征。与传统的通道增强模块(如SE模块)相比,CA block在计算开销上更为高效。

核心代码

class ChannelAggregationFFN(nn.Module):"""An implementation of FFN with Channel Aggregation in MogaNet."""def __init__(self, embed_dims, mlp_hidden_dims, kernel_size=3, act_layer=nn.GELU, ffn_drop=0.):super(ChannelAggregationFFN, self).__init__()self.embed_dims = embed_dimsself.mlp_hidden_dims = mlp_hidden_dimsself.fc1 = nn.Conv2d(in_channels=embed_dims, out_channels=self.mlp_hidden_dims, kernel_size=1)self.dwconv = nn.Conv2d(in_channels=self.mlp_hidden_dims, out_channels=self.mlp_hidden_dims, kernel_size=kernel_size,padding=kernel_size // 2, bias=True, groups=self.mlp_hidden_dims)self.act = act_layer()self.fc2 = nn.Conv2d(in_channels=mlp_hidden_dims, out_channels=embed_dims, kernel_size=1)self.drop = nn.Dropout(ffn_drop)self.decompose = nn.Conv2d(in_channels=self.mlp_hidden_dims, out_channels=1, kernel_size=1)self.sigma = nn.Parameter(1e-5 * torch.ones((1, mlp_hidden_dims, 1, 1)), requires_grad=True)self.decompose_act = act_layer()def feat_decompose(self, x):x = x + self.sigma * (x - self.decompose_act(self.decompose(x)))return xdef forward(self, x):# proj 1x = self.fc1(x)x = self.dwconv(x)x = self.act(x)x = self.drop(x)# proj 2x = self.feat_decompose(x)x = self.fc2(x)x = self.drop(x)return x

实验

脚本

import warnings
warnings.filterwarnings('ignore')
from ultralytics import YOLOif __name__ == '__main__':
#     修改为自己的配置文件地址model = YOLO('./ultralytics/cfg/models/26/yolo26-ChannelAggregationFFN.yaml')
#     修改为自己的数据集地址model.train(data='./ultralytics/cfg/datasets/coco8.yaml',cache=False,imgsz=640,epochs=10,single_cls=False,  # 是否是单类别检测batch=8,close_mosaic=10,workers=0,optimizer='MuSGD',amp=True,project='runs/train',name='yolo26-ChannelAggregationFFN',)

结果

image-20260117150140845

http://www.jsqmd.com/news/347286/

相关文章:

  • 大数据时代半结构化数据的存储性能优化
  • 基于非洲秃鹫优化算法的图像分割附Matlab代码
  • YOLO26改进 - 卷积Conv SAConv可切换空洞卷积:自适应融合多尺度特征,优化小目标与遮挡目标感知
  • YOLO26改进 - 卷积Conv _ 引入线性可变形卷积LDConv(Linear Deformable Convolution)增强不规则目标特征捕获能力
  • 开题报告qq信管黄莹
  • Flink Watermark机制:解决大数据流处理中的乱序问题
  • YOLO26改进 - 注意力机制 Deformable-LKA 可变形大核注意力:自适应采样网格优化特征捕捉,提升不规则目标感知
  • YOLO26改进 - 卷积Conv SCConv空间和通道重建卷积:轻量化设计助力复杂场景与小目标检测
  • 揭秘国家级卫星超级工厂!年产能150颗、产值破500亿的商业航天“新质生产力“范本(WORD)
  • 【无人机路径规划】无人机结构巡检飞行规划系统,核心用于针对已知三维结构(通过 STL 文件导入)完成无人机观测点生成、路径优化(基于 TSP 问题)、能耗分析、重叠率分析及轨迹可视化附Matlab代码
  • YOLO26改进 - 卷积Conv SPD-Conv空间深度转换卷积优化空间信息编码,攻克小目标检测难题
  • 实现ai循环中插入用户对话的方法
  • 【DVMCNN诊断网络】基于离散韦格纳分布DWVD结合MCNN多尺度卷积神经网络的故障诊断研究附matlab代码
  • YOLO26改进 - 卷积Conv 加权卷积wConv2D:无损替换标准卷积,增强空间建模与特征提取质量 arXiv 2025
  • YOLO26涨点改进 | 独家创新、Neck特征融合改进篇 | ICLR 2025 | 引入FMoM频率调制融合模块,实现空间与频率的协同特征增强,助力多模态融合、小目标检测、遥感目标检测有效涨点
  • 【AAAI 2026即插即用】Mamba模块篇 | MUB曼巴上采样模块,特别适用于图像恢复、图像超分辨率、图像恢复、暗光增强、遥感任务、目标检测、图像分割 和 医学影像分析等CV任务通用,涨点起飞
  • YOLO26改进 - 卷积Conv 注入多阶门控聚合机制:Multi-Order Gated Aggregation 突破表示瓶颈,增强复杂场景目标感知能力
  • 沙丘猫算法+哈里斯鹰+鲸鱼+黏菌算法+蝴蝶算法优化ELMAN神经网络回归预测附Matlab代码
  • 开题报告vb酒店客房部
  • 【无人机三维路径规划】基于启发式算法的无人机三维路径规划动态避障算法附Matlab代码
  • 拼多多商家端 anti-content 分析
  • 开题报告【因泰魔锋商城的设计与实现】
  • 【DVRN故障诊断】基于离散韦格纳分布DWVD结合卷积神经网络(CNN)和残差网络(ResNet)的故障诊断研究附Matlab代码
  • 一文讲透 LLM、RAG、MCP 与 AI Agent:AI 系统的四个核心层级
  • YOLO26改进 - 卷积Conv DualConv( Dual Convolutional):用于轻量级深度神经网络的双卷积核
  • 从零构建 MCP Server:协议原理 + 完整实战
  • MySQL数据库讲解,如何使用聚合函数方法?
  • YOLO26改进 - C3k2 C3k2 融合 LSConv (Large-Small Conv)融合大核感知与小核聚合,提升小目标特征判别力
  • YOLO26改进 - 卷积Conv GCNet之金箍棒块GCBlock : 重参数化捕获全局依赖 CVPR 2025
  • 从蜜蜂导航到无人机自主飞行:基于ZYNQ的仿生偏振导航系统全解析