当前位置: 首页 > news >正文

YOLO26改进 - SPPF模块 | AIFI基于注意力的尺度内特征交互:替代SPPF构建高效混合编码器,提升模型综合效能

前言

本文介绍了实时检测Transformer(RT-DETR)及其核心AIFI模块在YOLO26中的结合应用。RT-DETR旨在解决YOLO速度和准确性受NMS负面影响、DETRs计算成本高的问题,通过设计高效混合编码器和解码器层数调整来提升性能。AIFI作为Transformer编码器层,通过构建2D正弦 - 余弦位置嵌入处理多尺度特征。我们将AIFI集成进YOLO26,实验表明,改进后的模型在COCO数据集上的速度和准确性超越了先进的YOLO模型,展现出良好的性能表现。

文章目录: YOLO26改进大全:卷积层、轻量化、注意力机制、损失函数、Backbone、SPPF、Neck、检测头全方位优化汇总

专栏链接: YOLO26改进专栏

文章目录

  • 前言
  • 介绍
    • 摘要
  • 文章链接
  • 基本原理
  • 核心代码
  • YOLO26已经集成AIFI
  • 实验
    • 脚本
    • 结果

介绍

摘要

YOLO系列因其在速度和准确性之间的合理权衡,成为了实时目标检测中最受欢迎的框架。然而,我们观察到YOLO的速度和准确性受NMS(非极大值抑制)的负面影响。最近,基于Transformer的端到端检测器(DETRs)提供了一种消除NMS的替代方案,但其高计算成本限制了其实用性,并阻碍了其完全利用排除NMS的优势。在本文中,我们提出了实时检测Transformer(RT-DETR),据我们所知,这是第一个解决上述困境的实时端到端目标检测器。我们借鉴先进的DETR,分两步构建RT-DETR:首先,我们专注于在提高速度的同时保持准确性,然后在保持速度的同时提高准确性。具体而言,我们设计了一种高效的混合编码器,通过解耦内尺度交互和跨尺度融合来快速处理多尺度特征,从而提高速度。然后,我们提出了不确定性最小化查询选择,以向解码器提供高质量的初始查询,从而提高准确性。此外,RT-DETR通过调整解码器层数支持灵活的速度调节,以适应各种场景,而无需重新训练。我们的RT-DETR-R50/R101在COCO数据集上分别达到了53.1%和54.3%的AP,并在T4 GPU上达到了108 FPS和74 FPS,超越了之前先进的YOLOs在速度和准确性上的表现。此外,RT-DETR-R50在准确性上比DINO-R50高2.2% AP,且FPS高约21倍。经过Objects365的预训练后,RT-DETR-R50/R101分别达到了55.3%和56.2%的AP。项目页面:https://zhao-yian.github.io/RTDETR。

文章链接

论文地址:论文地址

代码地址:代码地址

基本原理

核心代码

classAIFI(TransformerEncoderLayer):"""Defines the AIFI transformer layer."""def__init__(self,c1,cm=2048,num_heads=8,dropout=0,act=nn.GELU(),normalize_before=False):"""Initialize the AIFI instance with specified parameters."""super().__init__(c1,cm,num_heads,dropout,act,normalize_before)defforward(self,x):"""Forward pass for the AIFI transformer layer."""c,h,w=x.shape[1:]pos_embed=self.build_2d_sincos_position_embedding(w,h,c)# Flatten [B, C, H, W] to [B, HxW, C]x=super().forward(x.flatten(2).permute(0,2,1),pos=pos_embed.to(device=x.device,dtype=x.dtype))returnx.permute(0,2,1).view([-1,c,h,w]).contiguous()@staticmethoddefbuild_2d_sincos_position_embedding(w,h,embed_dim=256,temperature=10000.0):"""Builds 2D sine-cosine position embedding."""grid_w=torch.arange(int(w),dtype=torch.float32)grid_h=torch.arange(int(h),dtype=torch.float32)grid_w,grid_h=torch.meshgrid(grid_w,grid_h,indexing="ij")assertembed_dim%4==0,"Embed dimension must be divisible by 4 for 2D sin-cos position embedding"pos_dim=embed_dim//4omega=torch.arange(pos_dim,dtype=torch.float32)/pos_dim omega=1.0/(temperature**omega)out_w=grid_w.flatten()[...,None]@ omega[None]out_h=grid_h.flatten()[...,None]@ omega[None]returntorch.cat([torch.sin(out_w),torch.cos(out_w),torch.sin(out_h),torch.cos(out_h)],1)[None]

YOLO26已经集成AIFI

请注意AIFI以及被官方集成到了 YOLO26中,具体路径是:ultralytics/ultralytics/nn/modules/transformer.py

直接配置yaml进行训练即可:

ultralytics/cfg/models/26/yolo26-AIFI.yaml

# Ultralytics YOLO 🚀, AGPL-3.0 license# YOLO26 object detection model with P3-P5 outputs. For Usage examples see https://docs.ultralytics.com/tasks/detect# Parametersnc:80# number of classesscales:# model compound scaling constants, i.e. 'model=YOLO26n.yaml' will call YOLO26.yaml with scale 'n'# [depth, width, max_channels]n:[0.50,0.25,1024]# summary: 319 layers, 2624080 parameters, 2624064 gradients, 6.6 GFLOPss:[0.50,0.50,1024]# summary: 319 layers, 9458752 parameters, 9458736 gradients, 21.7 GFLOPsm:[0.50,1.00,512]# summary: 409 layers, 20114688 parameters, 20114672 gradients, 68.5 GFLOPsl:[1.00,1.00,512]# summary: 631 layers, 25372160 parameters, 25372144 gradients, 87.6 GFLOPsx:[1.00,1.50,512]# summary: 631 layers, 56966176 parameters, 56966160 gradients, 196.0 GFLOPs# YOLO26n backbonebackbone:# [from, repeats, module, args]-[-1,1,Conv,[64,3,2]]# 0-P1/2-[-1,1,Conv,[128,3,2]]# 1-P2/4-[-1,2,C3k2,[256,False,0.25]]-[-1,1,Conv,[256,3,2]]# 3-P3/8-[-1,2,C3k2,[512,False,0.25]]-[-1,1,Conv,[512,3,2]]# 5-P4/16-[-1,2,C3k2,[512,True]]-[-1,1,Conv,[1024,3,2]]# 7-P5/32-[-1,2,C3k2,[1024,True]]-[-1,1,AIFI,[1024,8]]# 9-[-1,2,C2PSA,[1024]]# 10# YOLO26n headhead:-[-1,1,nn.Upsample,[None,2,"nearest"]]-[[-1,6],1,Concat,[1]]# cat backbone P4-[-1,2,C3k2,[512,False]]# 13-[-1,1,nn.Upsample,[None,2,"nearest"]]-[[-1,4],1,Concat,[1]]# cat backbone P3-[-1,2,C3k2,[256,False]]# 16 (P3/8-small)-[-1,1,Conv,[256,3,2]]-[[-1,13],1,Concat,[1]]# cat head P4-[-1,2,C3k2,[512,False]]# 19 (P4/16-medium)-[-1,1,Conv,[512,3,2]]-[[-1,10],1,Concat,[1]]# cat head P5-[-1,2,C3k2,[1024,True]]# 22 (P5/32-large)-[[16,19,22],1,Detect,[nc]]# Detect(P3, P4, P5)

实验

脚本

importwarnings warnings.filterwarnings('ignore')fromultralyticsimportYOLOif__name__=='__main__':# 修改为自己的配置文件地址model=YOLO('./ultralytics/cfg/models/26/yolo26-AIFI.yaml')# 修改为自己的数据集地址model.train(data='./ultralytics/cfg/datasets/coco8.yaml',cache=False,imgsz=640,epochs=10,single_cls=False,# 是否是单类别检测batch=8,close_mosaic=10,workers=0,optimizer='MuSGD',# optimizer='SGD',amp=False,project='runs/train',name='yolo26-AIFI',)

结果

http://www.jsqmd.com/news/295029/

相关文章:

  • 2026.1.24 作业 - # P1362 兔子数
  • YOLO26改进 - SPPF模块 | 替代SPPF,FFocal Modulation焦点调制:即插即用轻量设计优化全局语义捕获
  • 大模型微调技术详解:从LoRA到P-Tuning v2,一文掌握高效微调方法
  • 用通俗的方式介绍大语言模型训练过程,非常详细收藏我这一篇就够了
  • 程序员收藏!AI产品经理转型与大模型学习全攻略,抢占AI时代先机,传统PM如何快速转型成AI产品经理?
  • 大模型训练全攻略:从监督学习到数据预处理的完整指南
  • 字节序及IP地址转换
  • LeetCode 134. 加油站(O(n)时间+O(1)空间最优解)
  • 【计算机毕业设计案例】基于Springboot的幼儿园综合管理系统基于springboot的幼儿园管理系统基于SpringBoot+Vue的幼儿园管理系统(程序+文档+讲解+定制)
  • 提示工程架构设计实战:旅游行业智能推荐提示系统架构设计全流程
  • 【计算机毕业设计案例】基于Java的养老院管理系统的设计与实现基于springboot的养老院管理系统的设计与实现(程序+文档+讲解+定制)
  • 深度学习篇---初看transformer
  • 固高控制板卡驱动安装教程
  • 基于大数据的图书推荐系统的设计与实现-计算机毕业设计源码+LW文档
  • 学术研究的第一步不再困难,AI工具助你轻松优化开题报告模板内容
  • 想要高效完成学术写作?这份AI辅助的开题报告模板是你的最佳选择
  • Java毕设选题推荐:基于springboot的幼儿园管理系统基于springboot的实验幼儿园信息管理系统【附源码、mysql、文档、调试+代码讲解+全bao等】
  • 区间并查集|树状数组
  • 计算机Java毕设实战-基于springboot的幼儿园管理系统基于Springboot的幼儿园综合管理系统【完整源码+LW+部署说明+演示视频,全bao一条龙等】
  • 【课程设计/毕业设计】基于springboot+vue的实验幼儿园信息管理系统基于springboot的幼儿园管理系统【附源码、数据库、万字文档】
  • Java计算机毕设之基于SpringBoot+Vue的幼儿园管理系统基于springboot的幼儿园管理系统(完整前后端代码+说明文档+LW,调试定制等)
  • Expo+React Native实现鉴权
  • Java毕设项目推荐-基于springboot的养老院管理系统的设计与实现基于SpringBoot+Vue的养老院管理系统【附源码+文档,调试定制服务】
  • Java毕设项目推荐-基于Springboot的幼儿园综合管理系统基于springboot的幼儿园管理系统【附源码+文档,调试定制服务】
  • 随笔-无具体内容
  • 吐血推荐!继续教育10款AI论文平台测评与推荐
  • 2026.1.24 作业 - # P14317 「ALFR Round 11」A 浴眼盯真 (dingzhen)
  • 深度测评专科生必用8款一键生成论文工具:开题报告文献综述全攻略
  • 这份AI支持的开题报告模板,能帮助你在学术研究中节省宝贵时间
  • 【AI经典论文解读】《High-Resolution Image Synthesis with Latent Diffusion Models(基于潜在扩散模型的高分辨率图像合成)》论文深度解读