当前位置: 首页 > news >正文

YOLOv13最新创新改进系列:融入AKConv(可改变核卷积),加强特征提取,任意数量的参数和任意采样形状,为网络开销和性能之间的权衡提供了更丰富的选择。 拉升检测性能!

YOLOv13最新创新改进系列:融入AKConv(可改变核卷积),加强特征提取,任意数量的参数和任意采样形状,为网络开销和性能之间的权衡提供了更丰富的选择。 拉升检测性能!

购买相关资料后畅享一对一答疑

畅享超多免费持续更新且可大幅度提升文章档次的纯干货工具!

AKconv(提出原文戳这)

摘要

​摘要:基于卷积运算的神经网络在深度学习领域取得了显著的成果,但标准卷积运算存在两个固有缺陷。一方面,卷积运算局限于局部窗口,无法从其他位置捕获信息,并且其采样形状是固定的。另一方面,卷积核的大小固定为k×k,这是一个固定的正方形形状,并且参数的数量倾向于随大小成直角增长。很明显,在不同的数据集和不同的位置,目标的形状和大小是不同的。具有固定样本形状和正方形的卷积核不能很好地适应变化的目标。针对上述问题,本工作探讨了可变核卷积(AKConv),它为卷积核提供了任意数量的参数和任意采样形状,为网络开销和性能之间的权衡提供了更丰富的选择。在AKConv中,我们通过一种新的坐标生成算法定义了任意大小卷积核的初始位置。为了适应目标的变化,我们引入偏移来调整每个位置的样本形状。此外,我们还通过使用具有相同大小和不同初始采样形状的AKConv来探索神经网络的效果。AKConv通过不规则卷积运算完成了高效特征提取的过程,并为卷积采样形状带来了更多的探索选择。在代表性数据集COCO2017、VOC 7+12和VisDrone-DET2021上的目标检测实验充分展示了AKConv的优势。AKConv可以用作即插即用卷积运算,以取代卷积运算,从而提高网络性能。
上图所示:卷积参数数量随卷积尺寸增加的趋势。 很明显,与 Deformable 和标准 Conv 相比,AKConv 有更多的选择,并且卷积参数的数量随着卷积核大小呈线性增加。 为了便于描述,我们忽略了 Deformable Conv 和 AKConv 学习偏移量的参数数量,因为它比特征提取中涉及的卷积参数数量要少得多。

1 简介

卷积神经网络(CNN),如ResNet [1]、DenseNet [2]和YOLO [3],在各种应用中表现出了优异的性能,并引领了现代社会许多方面的技术进步。 从自动驾驶汽车图像识别[4]和医学图像分析[5]到智能监控[6]和个性化推荐系统[7],它已经变得不可或缺。 这些成功的网络模型很大程度上依赖于卷积运算,它可以有效地提取图像中的局部特征并确保模型的复杂性。 尽管CNN在分类[8]、目标检测[9]、语义分割[10]等方面取得了许多成功,但它们仍然存在一些局限性。 最显着的限制之一涉及卷积样本形状和大小的选择。 标准卷积运算往往依赖于采样位置固定的方核,如1×1、3×3、5×5和7×7等。规则核的采样位置不可变形,不能动态改变。 对物体形状变化的反应。 Deformable Conv [11, 12]通过偏移增强网络性能,以灵活调整图1的采样形状。随着卷积尺寸增加,卷积参数数量的趋势。 很明显,与 Deformable 和标准 Conv 相比,AKConv 有更多的选择,并且卷积参数的数量随着卷积核大小呈线性增加。 为了便于描述,我们忽略了 Deformable Conv 和 AKConv 学习偏移量的参数数量,因为它比特征提取中涉及的卷积参数数量要少得多。 卷积核,适应目标的变化。 例如,在[13,14,15]中,他们利用它来对齐特征。 赵等人。 [16]通过将其添加到YOLOv4[17]中,提高了死鱼检测的效率。 杨等人。 [18]改进了YOLOv8 [19],通过将其添加到骨干中来检测牛。 李等人。 [20] 将 Deformable Conv 引入深度图像压缩任务 [21, 22] 以获得内容自适应感受野以提高网络性能。 重要的是,AKConv 允许卷积参数数量呈线性上升或下降趋势,这对硬件环境有利,并且可以作为轻量级模型的替代方案,以减少模型参数数量和计算开销。 其次,在资源充足的大内核中,它有更多的选择来提高网络性能。 图1显示,常规卷积核使得参数数量呈现平方增加趋势,而AKConv仅呈现线性增加趋势。 相比于平方的增长趋势,AKConv增长平缓,为卷积核的选择提供了更多的选择。 此外,它的想法可以扩展到特定领域。 因为,可以根据先验知识创建特殊的采样形状进行卷积运算,然后通过偏移动态自动适应目标形状的变化。 在代表性数据集VOC[23]、COCO2017[24]、VisDrone-DET2021[25]上进行的物体检测实验充分证明了AKConv的优势。
总之,我们的贡献如下:
1.对于不同大小的卷积核,我们提出了一种算法来为任意大小的卷积核生成初始采样坐标。
2.为了适应目标的不同变化,我们通过获得的偏移量来调整不规则卷积核的采样位置。
3. 与常规卷积核相比,所提出的AKConv实现了不规则卷积核提取特征的功能,为各种不同目标提供任意采样形状和大小的卷积核,弥补了常规卷积的缺点。

2 相关工作

近年来,许多工作从不同角度考虑和分析标准卷积运算,然后设计新颖的卷积运算来提高网络性能。 李等人。 [26]认为卷积核在所有空间位置共享参数,这导致跨不同空间位置的建模能力有限,并且不能有效捕获空间长程关系。 其次,为每个输出通道使用不同的卷积核的方法实际上效率不高。 因此,为了解决这些缺点,他们提出了Involution算子,通过反转卷积运算的特征来提高网络性能。 齐等人。 [27]提出了基于Deformable Conv的DSConv。 Deformable Conv中学习得到的偏移是自由的,导致模型丢失了一小部分精细结构特征,这对分割细长管状结构的任务提出了很大的挑战,因此,他们提出了DSConv。 张等人。 [28]从新的角度理解了空间注意力机制,他们认为空间注意力机制本质上解决了卷积运算的参数共享问题。 然而,一些空间注意力机制,例如CBAM [29]和CA [30],并没有完全解决大尺寸卷积参数共享的问题。 因此,他们提出了RFAConv。 陈等人。 [31]提出了动态转换。 与每层使用卷积核不同,动态卷积根据注意力动态聚合多个并行卷积核。 动态卷积提供了更好的特征表示。 谭等人。 [32]认为CNNS中经常忽略内核大小,这可能会影响网络的准确性和效率。 其次,仅使用逐层卷积并不能充分发挥卷积网络的潜力。 因此,他们提出了 MixConv,它自然地在单个卷积中混合多个内核大小,以提高网络的性能。 尽管这些方法提高了卷积运算的性能,但它们仍然仅限于常规卷积运算,并且不允许卷积样本形状的多种变化。 相比之下,我们提出的 AKConv 可以使用具有任意数量参数和样本形状的卷积核有效地提取特征。

3 方法

…详细方法在跑出研读原文!

4 结论

显然,在现实生活中以及计算机视觉领域中,物体的形状呈现出各种变化。 卷积运算固定的样本形状无法适应这种变化。 尽管Deformable Conv可以通过调整offset来灵活改变卷积的样本形状,但它仍然存在局限性。 因此,我们提出了AKConv,它真正实现了允许卷积具有任意样本形状和大小,这为卷积核的选择提供了多样性。 此外,针对不同的领域,我们可以设计特定的采样坐标初始形状以满足实际需要。 虽然在本文中,我们仅针对大小为 5 的 AKConv 设计了多种形状的采样坐标。但是,AKConv 的灵活性在于它可以针对任何大小的采样核来提取信息。 因此,未来我们希望针对该领域的特定任务探索具有适当大小和样本形状的 AKConv,这将为后续任务增添动力。

5 修改步骤!

5.1 修改YAML文件

5.2 新建.py

5.3 修改tasks.py

六、验证是否成功即可

执行命令

python train.py

改完收工!
关注B站:AI学术叫叫兽
从此走上科研快速路
遥遥领先同行!!!!

写在最后

学术因方向、个人实验和写作能力以及具体创新内容的不同而无法做到一通百通,关注UP:Ai学术叫叫兽
在所有B站资料中留下联系方式以便在科研之余为家人们答疑解惑,本up主获得过国奖,发表多篇SCI,擅长目标检测领域,拥有多项竞赛经历,拥有软件著作权,核心期刊等经历。
因为经历过所以更懂小白的痛苦!
因为经历过所以更具有指向性的指导!

祝所有科研工作者都能够在自己的领域上更上一层楼!

以下为给大家庭小伙伴们免费更新过的绘图代码,均配有详细教程,超小白也可一键操作! 后续更多提升文章档次的资料的更新请大家庭的小伙伴关注UP:Ai学术叫叫兽!



http://www.jsqmd.com/news/777379/

相关文章:

  • 2026年4月酒店名称,西双版纳酒店/民宿/酒店/西双版纳民宿/西双版纳住宿/住宿,酒店预订 - 品牌推荐师
  • BilibiliCacheVideoMerge:三步告别缓存碎片,安卓端B站视频完美合并指南
  • 国产测厚仪行业格局解析,吉恩斯高精度镀层检测仪器推荐 - 品牌推荐大师1
  • AD9361的LVDS模式不止传数据:深度挖掘CTRL_IN/OUT引脚在TDD系统中的妙用
  • 模拟电路设计:超低功耗定时发声器原理与复刻实践
  • RT-DTER最新创新改进系列:融合YOLOv9下采样机制ADown,强强联合!扩大YOLOv13网络模型感受野,降低过拟合,让小目标无处可遁!检测精度再提新高!!
  • 深度解析常见网络配置故障与底层排错逻辑
  • 国产恶臭监测仪替代进口首选,西原环保实力优势拆解 - 品牌推荐大师1
  • PardusBot:基于AI Agent的智能定时任务与数据抓取自动化工具
  • 告别龟速:如何用开源插件将GitHub下载速度提升100倍?
  • 15、世界杯—把两个Excel的内容放在一个新Excel里面
  • 2026年5月新消息:杭州地区商用中央空调优选服务商深度解析,杭州鸿鹄环境获评实力之选 - 2026年企业推荐榜
  • 2026巴厘岛目的地婚礼深度评测:全国三强中国新人去巴厘岛办目的地婚礼,哪家品牌海外服务最靠谱?跨境服务力深度测评 - charlieruizvin
  • Spring Boot项目实战:5分钟搞定腾讯云短信验证码登录(附完整Java代码与Redis缓存方案)
  • Beyond Compare 5密钥生成终极指南:3种方法轻松解决软件授权问题
  • 如何通过Fast-GitHub浏览器插件实现10倍GitHub下载速度优化
  • 终极PvZ Toolkit完整指南:重新定义植物大战僵尸修改体验
  • 2026年福州GEO优化服务商推荐top5:企业选型专业参考与核心能力分析 - 产业观察网
  • 2026年无锡充电桩运营系统与社区物联解决方案深度横评:5大品牌对标及选购指南 - 优质企业观察收录
  • 3步掌握Windows音频路由神器:Audio Router让你的多设备音频管理变得如此简单
  • YOLOv13最新创新改进系列:当目标检测遇上VOLO视觉展望器,精度与速度的完美融合!逆天细节识别,小目标无处遁形!
  • 2026年柴油机机械应急启动器厂家深度测评:如何为你的工业应急场景匹配最佳方案? - 速递信息
  • ML:主成分分析(PCA)的基本原理与实现
  • 清爽不油腻不搓泥防晒霜,这5款防晒清爽不搓泥绝绝子 - 全网最美
  • BonziClaw项目:逆向工程与Windows桌面应用重构实战
  • 基于RAG的智能文档问答系统:从原理到部署实战
  • 「五度妙笔」专业长文本报告AI智能生成专家,只写专业硬核报告!
  • 终极视频下载解决方案:如何用VideoDownloadHelper轻松保存网页视频
  • VSCode 如何配置 Prettier 优先于 ESLint 格式化?
  • 2026 上海废水处理设备十大企业 合规治理与资源化路径观察 - 新闻观察者