当前位置: 首页 > news >正文

YOLO26改进 - 注意力机制 | S2Attention稀疏分片注意力:多头协同覆盖全局上下文,增强小目标与长程特征捕获

前言

本文介绍了改进的空间移位MLP视觉骨干网络S2-MLPv2及其在YOLO26中的结合应用。S2-MLPv2在通道维度扩展特征图,进行分割和不同的空间移位操作,并利用分割注意力操作融合特征。分割注意力模块先计算特征图平均值,再通过MLP生成注意力权重,最后生成注意力特征图。我们将S2Attention模块集成进YOLO26,替换部分原有模块。

文章目录: YOLO26改进大全:卷积层、轻量化、注意力机制、损失函数、Backbone、SPPF、Neck、检测头全方位优化汇总

专栏链接: YOLO26改进专栏

文章目录

  • 前言
  • 介绍
    • 摘要
  • 文章链接
  • 基本原理
      • 分割注意力模块概述
      • 具体实现步骤
      • 论文中的实现
  • 核心代码
  • YOLO26引入代码
  • 注册
    • 步骤1:
    • 步骤2
  • 配置yolo26-S2Attention.yaml
  • 实验
    • 脚本
    • 结果

介绍

摘要

近年来,基于多层感知机(MLP)的视觉骨干网络架构逐渐兴起。相较于传统卷积神经网络(CNN)与视觉Transformer架构,具有较少归纳偏置的MLP结构在图像识别任务中展现出显著竞争力。其中,采用直接空间移位操作的空间移位MLP(S2-MLP)在性能表现上超越了包括MLP-mixer和ResMLP在内的早期研究成果。然而,最新研究表明,通过采用较小尺度图像块与金字塔结构设计的Vision Permutator(ViP)及全局滤波网络(GFNet)在性能指标上已超越S2-MLP架构。针对这一技术发展趋势,本文对S2-MLP视觉骨干网络进行了系统性改进:首先在通道维度上扩展特征图谱,并将扩展后的特征图谱分割为多个子部分,对各子部分实施差异化空间移位操作;同时引入分割注意力机制以实现各子部分的有效融合;此外,借鉴先进方法采用较小尺度图像块并结合金字塔结构设计以提升图像识别精度。改进后的空间移位MLP视觉骨干网络被命名为S2-MLPv2。实验结果表明,参数量为55M的中型模型S2-MLPv2-Medium在ImageNet-1K基准测试中,使用224×224分辨率输入图像,在不依赖自注意力机制及外部训练数据的条件下,实现了83.6%的Top-1分类准确率。

文章链接

论文地址:

http://www.jsqmd.com/news/606257/

相关文章:

  • 2025_NIPS_Learning World Models for Interactive Video Generation
  • Windows下OpenClaw安装指南:对接SecGPT-14B实现安全脚本自动化
  • CogVideoX-2b显存瓶颈突破:CPU Offload在实践中的表现
  • FLUX.1-dev像素生成器效果对比:不同采样器(Euler/DPM++)像素质感差异
  • OpenDataLab MinerU生产部署建议:并发处理与性能调优指南
  • java的逻辑运算
  • “基于MPPT算法与PI双闭环控制的48V直流侧光伏电池充电模型研究”
  • 基于 Rokid CXR-M SDK 开发的春节红包记账助手:春节红包一键记录,眼镜实时查看收支
  • 万物识别-中文镜像多场景落地:已接入12家中小制造企业视觉质检系统
  • 2025_NIPS_Can Multi-Modal LLMs Provide Live Step-by-Step Task Guidance?
  • 基于AIVideo的自动化运维视频报告系统
  • 动态规划-多重背包
  • 口碑好的拉丝机、预应力钢丝拉丝机、高延冷轧带肋钢筋设备、冷轧机、拔丝机厂家哪家好 - 品牌企业推荐师(官方)
  • Ostrakon-VL-8B在微信小程序中的落地:拍照问答应用的开发全流程
  • StructBERT模型服务化架构设计
  • Wan2.2-I2V-A14B实操手册:WebUI中ControlNet风格控制与运动强度调节
  • YOLO26改进 - 注意力机制 | EffectiveSE 高效挤压激励模块:单全连接层设计破解信息丢失难题,增强通道特征表征
  • 2025_NIPS_Provable Scaling Laws for the Test-Time Compute of Large Language Models
  • 个人网站SEO优化多久更新一次好
  • 3秒破解百度网盘密码:这个神奇工具让资源获取零门槛
  • Pixel Aurora Engine 提示词工程入门:编写高效指令的 C 语言思维
  • 使用RexUniNLU构建法律合同智能审查系统
  • 智能合约2.0:2026区块链重构信任的“数字引擎”
  • Qwen3-ASR-1.7B与卷积神经网络的语音特征提取技术
  • 从智能家居到智慧城市:AI Agent Harness Engineering 作为统一控制中枢
  • 智能助盲眼镜AI系统部署指南:CYBER-VISION零号协议实战教程
  • 跨平台实战:从零部署SegAnyGAussians的避坑指南与流程解析
  • STM32多路串口通信实战:FreeRTOS消息队列如何优雅处理来自DMA的Modbus数据包
  • Windows 常用命令速查表
  • ClawdBot设备授权全流程解析:安全可控的本地AI助手访问方案