当前位置: 首页 > news >正文

YOLOv11最新创新改进系列:多模态融合R融合多头上下文聚合ContextAggregation通用构建块,利用Container的长期交互作用、局部卷积操作的诱导偏差,产生更快的速度、更高的精度!

YOLOv11最新创新改进系列:多模态融合R融合多头上下文聚合ContextAggregation通用构建块,利用Container的长期交互作用、局部卷积操作的诱导偏差,产生更快的速度、更高的精度!

购买相关资料后畅享一对一答疑

畅享超多免费持续更新且可大幅度提升文章档次的纯干货工具!

截止到发稿时,B站YOLOv11最新改进系列的源码包,已更新了40+种的单模态改进!20+种多模态改进!
自己排列组合2-4种后,考虑位置不同后可排列组合上千万种!!专注AI学术,关注博主:Ai学术叫叫兽!

数据集准备

我给大家配置了默认的M3FD.yaml,大家可以直接在代码中使用,然后按照自己的数据进行简单的替换就行!非常简单!

# Ultralytics YOLO , AGPL-3.0 license# M3FD dataset# Example usage: yolo train data=M3FD.yaml# Train/val/test sets as dir: path/to/imgspath:# dataset root dirtrain:images/train# train visible images (relative to 'path')train2:imagesTR/train# train infrared images (relative to 'path')val:images/val# val visible images (relative to 'path')val2:imagesIR/val# val infrared images (relative to 'path')test:# test images (optional)#image_weights: Truenc:6# Classesnames:0:People1:Car2:Bus3:Motorcycle4:Lamp5:Truck

其中,ImagesIR 为红外线图像


Image为可见光(RGB)图像

YOLOv11最新创新改进系列:多模态融合R融合多头上下文聚合ContextAggregation通用构建块,利用Container的长期交互作用、局部卷积操作的诱导偏差,产生更快的速度、更高的精度!

提出原文戳这

一 摘要

卷积神经网络(CNNs)在计算机视觉中无处不在,具有无数有效和高效的变化。最近,Container——最初是在自然语言处理中引入的——已经越来越多地应用于计算机视觉。早期的用户继续使用CNN的骨干,最新的网络是端到端无CNN的Transformer解决方案。最近一个令人惊讶的发现表明,一个简单的基于MLP的解决方案,没有任何传统的卷积或Transformer组件,可以产生有效的视觉表示。虽然CNN、Transformer和MLP-Mixers可以被视为完全不同的架构,但我们提供了一个统一的视图,表明它们实际上是在神经网络堆栈中聚合空间上下文的更通用方法的特殊情况。我们提出了Container(上下文聚合网络),一个用于多头上下文聚合的通用构建块,它可以利用Container的长期交互作用,同时仍然利用局部卷积操作的诱导偏差,导致更快的收敛速度,这经常在CNN中看到。我们的Container架构在ImageNet上使用22M参数实现了82.7%的Top-1精度,比DeiT-Small提高了2.8,并且可以在短短200个时代收敛到79.9%的Top-1精度。比起相比的基于Transformer的方法不能很好地扩展到下游任务依赖较大的输入图像的分辨率,我们高效的网络,名叫CONTAINER-LIGHT,可以使用在目标检测和分割网络如DETR实例,RetinaNet和Mask-RCNN获得令人印象深刻的检测图38.9,43.8,45.1和掩码mAP为41.3,与具有可比较的计算和参数大小的ResNet-50骨干相比,分别提供了6.6、7.3、6.9和6.6 pts的较大改进。与DINO框架下的DeiT相比,我们的方法在自监督学习方面也取得了很好的效果。仅需22M参数量,所提CONTAINER在ImageNet数据集取得了82.7%的的top1精度,以2.8%优于DeiT-Small;此外仅需200epoch即可达到79.9%的top1精度。不用于难以扩展到下游任务的Transformer方案(因为需要更高分辨率),该方案CONTAINER-LIGHT可以嵌入到DETR、RetinaNet以及Mask-RCNN等架构中用于目标检测、实例分割任务并分别取得了6.6,7.6,6.9指标提升。

提供了一个统一视角表明:它们均是更广义方案下通过神经网络集成空间上下文信息的特例。我们提出了CONTAINER(CONText AggregatIon NEtwoRK),一种用于多头上下文集成(Context Aggregation)的广义构建模块 。本文有以下几点贡献:

提出了关于主流视觉架构的一个统一视角;
提出了一种新颖的模块CONTAINER,它通过可学习参数和响应的架构混合使用了静态与动态关联矩阵(Affinity Matrix),在图像分类任务中表现出了很强的结果;
提出了一种高效&有效的扩展CONTAINER-LIGHT在检测与分割方面取得了显著的性能提升。

二 修改步骤!

2.1 修改YAML文件

2.2 新建.py

2.3 修改tasks.py

三 验证是否成功即可

执行命令

python train.py

改完收工!
关注B站:Ai学术叫叫兽er
从此走上科研快速路
遥遥领先同行!!!!

写在最后

学术因方向、个人实验和写作能力以及具体创新内容的不同而无法做到一通百通,关注UP:Ai学术叫叫兽
在所有B站资料中留下联系方式以便在科研之余为家人们答疑解惑,本up主获得过国奖,发表多篇SCI,擅长目标检测领域,拥有多项竞赛经历,拥有软件著作权,核心期刊等经历。
因为经历过所以更懂小白的痛苦!
因为经历过所以更具有指向性的指导!

祝所有科研工作者都能够在自己的领域上更上一层楼!

以下为给大家庭小伙伴们免费更新过的绘图代码,均配有详细教程,超小白也可一键操作! 后续更多提升文章档次的资料的更新请大家庭的小伙伴关注UP:Ai学术叫叫兽!



http://www.jsqmd.com/news/770810/

相关文章:

  • AK: 软件 3.0 = LLM编程
  • 3大核心功能深度解析:PvZ Toolkit如何重塑植物大战僵尸游戏体验
  • STM32编码器模式避坑指南:以TIM4读取电机转速为例,解决计数不准和方向判断问题
  • 从“自己养设计师”到“云端订阅模式”的实践记录
  • 2026 生鲜冷链无人机配送低空平台推荐,冰柏科技全程温控更省心 - 品牌2026
  • 长沙福麟家居设计:望城靠谱的欧式沙发翻新 - LYL仔仔
  • Claude Code Agent 与团队系统技术文档
  • GetQzonehistory终极指南:三分钟永久备份你的QQ空间青春记忆
  • 100+专业机器学习图形资源:ML Visuals如何让你的技术表达更出彩?
  • VisualCppRedist AIO:Windows系统VC++运行库的终极一站式解决方案
  • 2026年5月新发布:山东靠谱的喷油器供应厂家深度解析与量化评估,认准山东重康机电设备有限公司 - 2026年企业推荐榜
  • AISMM模型应用全链路解析,从数据采集到决策输出的12个关键陷阱
  • 掌握高效Instagram视频下载技巧:Next.js构建的专业下载工具全解析
  • 佛山粤利通市政工程:龙川可靠的热熔标线划线施工 - LYL仔仔
  • 为内部知识库问答系统接入多个大模型提升回答质量
  • 广州三意机械设备:天河靠谱的升降平台出租找哪家 - LYL仔仔
  • 感受分钟级接入与标准协议带来的开发效率提升
  • AI新职业崛起:小白也能入局!收藏这份进阶指南,解锁高薪岗位机会
  • 如何5分钟内掌握Mod Engine 2:游戏模组开发的终极完整教程
  • 避坑指南:Nebula Graph分布式集群部署后,如何解决‘Host not enough’和监控Dashboard连接失败?
  • 广州金烨再生资源回收:海珠不锈钢回收厂家 - LYL仔仔
  • 2026年清镇别墅装修深度横评:从毛坯到拎包入住的一站式方案选购指南 - 年度推荐企业名录
  • 福州补水保湿、美白淡斑、祛痘印如何一站式护理?看完这篇给你答案 - 品牌2026
  • GetQzonehistory:一键备份你的QQ空间历史说说的终极解决方案
  • MelonLoader:Unity游戏模组加载器的5个关键问题与解决方案
  • 数组 滑动窗口
  • 设计师与程序员如何高效协作?用Qt Design Studio 4和Qt Creator 13玩转QML项目开发
  • AI API中转站推荐哪个靠谱
  • 闲置天虹购物卡别浪费!2026最新天虹购物卡回收攻略,新手也能秒变现 - 京回收小程序
  • 微信自动群发工具:Windows端批量消息发送终极指南