当前位置: 首页 > news >正文

YOLO26改进45:全网首发--添加C3k2_SHSA:避免了多头冗余,并通过并行融合全局与局部信息提升准确率

论文介绍

高效视觉Transformer的最新进展

近期,高效的视觉Transformer在资源受限设备上展现出低延迟与卓越性能。传统方法在宏观层面采用4×4的块嵌入和四阶段结构,微观层面则依赖多头配置的复杂注意力机制。本文旨在以内存高效的方式解决各设计层面的计算冗余问题。

研究发现,采用更大步长的块化处理不仅能降低内存访问成本,还能通过减少早期阶段的空域冗余,获得具有竞争力的表征性能。初步分析表明,早期阶段的注意力层可被卷积替代,而后期阶段的部分注意力头存在计算冗余。

为解决这一问题,提出了一种单头注意力模块,其设计天然避免了多头冗余,并通过并行融合全局与局部信息提升准确率。基于上述方案,推出SHViT(单头视觉Transformer),实现了当前最优的速度-准确率权衡。

例如,在ImageNet-1k上,SHViT-S4在GPU、CPU和iPhone12上的推理速度分别达到MobileViTv2×1.0的3.3倍、8.1倍和2.4倍,且准确率提升1.3%。在MS COCO数据集上,结合MaskRCNN框架的目标检测与实例分割任务中,模型性能与FastViT-SA12相当,但骨干网络在GPU和移动端的延迟分别降低3.8倍和2.0倍。

文章地址:

http://www.jsqmd.com/news/421958/

相关文章:

  • 动物模型
  • 开发日志12
  • RAG工作机制详解:高质量知识库构建从入门到精通(非常详细),收藏这一篇就够了!
  • 多模态文档智能:视觉文档检索的现状综述与未来愿景
  • 某易九批x-sign逆向wasm分析
  • 智能体平台“三驾马车”:RAG、Workflow与Agent从入门到精通,收藏这一篇就够了!
  • 数学中的长度单位认识与应用:厘米与米
  • YOLO26改进44:全网首发--添加C3k2_MogaBlock:以更优的复杂度-性能平衡实现信息丰富的上下文挖掘
  • 2026年2月自动化厂家实战报告:主流服务商技术集成度及项目交付效能对比
  • 区间的线段并珂朵莉树
  • 2026年自动化厂家推荐榜单:覆盖高端制造与新兴能源,90%客户复购率的十强权威认证
  • 白酒度数竟不是按口感定的?原来我们都被忽悠了
  • 2026年2月PLC厂家实战报告:主流品牌产品性能及行业适配度对比
  • Dify搭建ChatFlow制作知识库
  • 2025板材工厂哪个好 - 品牌推荐(官方)
  • 系统梳理DDD(领域驱动设计)在复杂业务中的落地难点
  • 市面上有实力的2026板材品牌哪家专业 - 品牌推荐(官方)
  • 《变形记》就让我成为野兽,回归原始
  • 基于能量的模型(EBM):用能量函数替代概率分布的建模框架
  • STM32信号发生器:Matlab波形生成与DMA传输至DAC引脚输出
  • 勒让德公式
  • 数据同步怎么做 - 智慧园区
  • 基于flask和python框架的高校团支部团务管理系统-vue pycharm django
  • SSH 免密登录快速教程
  • 基于flask和python框架的高校教材征订管理系统的设计与实现-vue pycharm django
  • 基于flask和python框架的服装销售商城平台-vue pycharm django
  • 使用Quick3D粒子的雨效果
  • 基于flask和python框架的求职招聘网站-vue pycharm django
  • 2D渲染-介绍Qt Canvas Painter
  • 基于flask和python框架的热门车型汽车推荐网站-vue pycharm django