当前位置: 首页 > news >正文

YOLO26最新创新改进系列:融入AKConv(可改变核卷积),加强特征提取,任意数量的参数和任意采样形状,为网络开销和性能之间的权衡提供了更丰富的选择。 拉升检测性能!

YOLO26最新创新改进系列:融入AKConv(可改变核卷积),加强特征提取,任意数量的参数和任意采样形状,为网络开销和性能之间的权衡提供了更丰富的选择。 拉升检测性能!

购买相关资料后畅享一对一答疑

畅享超多免费持续更新且可大幅度提升文章档次的纯干货工具!见文末!

详细的改进教程以及源码,戳这!戳这!!戳这!!!B站:AI学术叫叫兽 动态第一条置顶动态中有直达链接,感谢支持!祝各位科研人硕果累累!!!

AKconv(提出原文戳这)

摘要

​摘要:基于卷积运算的神经网络在深度学习领域取得了显著的成果,但标准卷积运算存在两个固有缺陷。一方面,卷积运算局限于局部窗口,无法从其他位置捕获信息,并且其采样形状是固定的。另一方面,卷积核的大小固定为k×k,这是一个固定的正方形形状,并且参数的数量倾向于随大小成直角增长。很明显,在不同的数据集和不同的位置,目标的形状和大小是不同的。具有固定样本形状和正方形的卷积核不能很好地适应变化的目标。针对上述问题,本工作探讨了可变核卷积(AKConv),它为卷积核提供了任意数量的参数和任意采样形状,为网络开销和性能之间的权衡提供了更丰富的选择。在AKConv中,我们通过一种新的坐标生成算法定义了任意大小卷积核的初始位置。为了适应目标的变化,我们引入偏移来调整每个位置的样本形状。此外,我们还通过使用具有相同大小和不同初始采样形状的AKConv来探索神经网络的效果。AKConv通过不规则卷积运算完成了高效特征提取的过程,并为卷积采样形状带来了更多的探索选择。在代表性数据集COCO2017、VOC 7+12和VisDrone-DET2021上的目标检测实验充分展示了AKConv的优势。AKConv可以用作即插即用卷积运算,以取代卷积运算,从而提高网络性能。
上图所示:卷积参数数量随卷积尺寸增加的趋势。 很明显,与 Deformable 和标准 Conv 相比,AKConv 有更多的选择,并且卷积参数的数量随着卷积核大小呈线性增加。 为了便于描述,我们忽略了 Deformable Conv 和 AKConv 学习偏移量的参数数量,因为它比特征提取中涉及的卷积参数数量要少得多。

1 简介

卷积神经网络(CNN),如ResNet [1]、DenseNet [2]和YOLO [3],在各种应用中表现出了优异的性能,并引领了现代社会许多方面的技术进步。 从自动驾驶汽车图像识别[4]和医学图像分析[5]到智能监控[6]和个性化推荐系统[7],它已经变得不可或缺。 这些成功的网络模型很大程度上依赖于卷积运算,它可以有效地提取图像中的局部特征并确保模型的复杂性。 尽管CNN在分类[8]、目标检测[9]、语义分割[10]等方面取得了许多成功,但它们仍然存在一些局限性。 最显着的限制之一涉及卷积样本形状和大小的选择。 标准卷积运算往往依赖于采样位置固定的方核,如1×1、3×3、5×5和7×7等。规则核的采样位置不可变形,不能动态改变。 对物体形状变化的反应。 Deformable Conv [11, 12]通过偏移增强网络性能,以灵活调整图1的采样形状。随着卷积尺寸增加,卷积参数数量的趋势。 很明显,与 Deformable 和标准 Conv 相比,AKConv 有更多的选择,并且卷积参数的数量随着卷积核大小呈线性增加。 为了便于描述,我们忽略了 Deformable Conv 和 AKConv 学习偏移量的参数数量,因为它比特征提取中涉及的卷积参数数量要少得多。 卷积核,适应目标的变化。 例如,在[13,14,15]中,他们利用它来对齐特征。 赵等人。 [16]通过将其添加到YOLOv4[17]中,提高了死鱼检测的效率。 杨等人。 [18]改进了YOLOv8 [19],通过将其添加到骨干中来检测牛。 李等人。 [20] 将 Deformable Conv 引入深度图像压缩任务 [21, 22] 以获得内容自适应感受野以提高网络性能。 重要的是,AKConv 允许卷积参数数量呈线性上升或下降趋势,这对硬件环境有利,并且可以作为轻量级模型的替代方案,以减少模型参数数量和计算开销。 其次,在资源充足的大内核中,它有更多的选择来提高网络性能。 图1显示,常规卷积核使得参数数量呈现平方增加趋势,而AKConv仅呈现线性增加趋势。 相比于平方的增长趋势,AKConv增长平缓,为卷积核的选择提供了更多的选择。 此外,它的想法可以扩展到特定领域。 因为,可以根据先验知识创建特殊的采样形状进行卷积运算,然后通过偏移动态自动适应目标形状的变化。 在代表性数据集VOC[23]、COCO2017[24]、VisDrone-DET2021[25]上进行的物体检测实验充分证明了AKConv的优势。
总之,我们的贡献如下:
1.对于不同大小的卷积核,我们提出了一种算法来为任意大小的卷积核生成初始采样坐标。
2.为了适应目标的不同变化,我们通过获得的偏移量来调整不规则卷积核的采样位置。
3. 与常规卷积核相比,所提出的AKConv实现了不规则卷积核提取特征的功能,为各种不同目标提供任意采样形状和大小的卷积核,弥补了常规卷积的缺点。

2 相关工作

近年来,许多工作从不同角度考虑和分析标准卷积运算,然后设计新颖的卷积运算来提高网络性能。 李等人。 [26]认为卷积核在所有空间位置共享参数,这导致跨不同空间位置的建模能力有限,并且不能有效捕获空间长程关系。 其次,为每个输出通道使用不同的卷积核的方法实际上效率不高。 因此,为了解决这些缺点,他们提出了Involution算子,通过反转卷积运算的特征来提高网络性能。 齐等人。 [27]提出了基于Deformable Conv的DSConv。 Deformable Conv中学习得到的偏移是自由的,导致模型丢失了一小部分精细结构特征,这对分割细长管状结构的任务提出了很大的挑战,因此,他们提出了DSConv。 张等人。 [28]从新的角度理解了空间注意力机制,他们认为空间注意力机制本质上解决了卷积运算的参数共享问题。 然而,一些空间注意力机制,例如CBAM [29]和CA [30],并没有完全解决大尺寸卷积参数共享的问题。 因此,他们提出了RFAConv。 陈等人。 [31]提出了动态转换。 与每层使用卷积核不同,动态卷积根据注意力动态聚合多个并行卷积核。 动态卷积提供了更好的特征表示。 谭等人。 [32]认为CNNS中经常忽略内核大小,这可能会影响网络的准确性和效率。 其次,仅使用逐层卷积并不能充分发挥卷积网络的潜力。 因此,他们提出了 MixConv,它自然地在单个卷积中混合多个内核大小,以提高网络的性能。 尽管这些方法提高了卷积运算的性能,但它们仍然仅限于常规卷积运算,并且不允许卷积样本形状的多种变化。 相比之下,我们提出的 AKConv 可以使用具有任意数量参数和样本形状的卷积核有效地提取特征。

3 方法

…详细方法在跑出研读原文!

4 结论

显然,在现实生活中以及计算机视觉领域中,物体的形状呈现出各种变化。 卷积运算固定的样本形状无法适应这种变化。 尽管Deformable Conv可以通过调整offset来灵活改变卷积的样本形状,但它仍然存在局限性。 因此,我们提出了AKConv,它真正实现了允许卷积具有任意样本形状和大小,这为卷积核的选择提供了多样性。 此外,针对不同的领域,我们可以设计特定的采样坐标初始形状以满足实际需要。 虽然在本文中,我们仅针对大小为 5 的 AKConv 设计了多种形状的采样坐标。但是,AKConv 的灵活性在于它可以针对任何大小的采样核来提取信息。 因此,未来我们希望针对该领域的特定任务探索具有适当大小和样本形状的 AKConv,这将为后续任务增添动力。

5 修改步骤!

5.1 修改YAML文件

5.2 新建.py

5.3 修改tasks.py

写在最后

学术因方向、个人实验和写作能力以及具体创新内容的不同而无法做到一通百通,所以本文作者即B站Up主:Ai学术叫叫兽
在所有B站资料中留下联系方式以便在科研之余为家人们答疑解惑,本up主获得过国奖,发表多篇SCI,擅长目标检测领域,拥有多项竞赛经历,拥有软件著作权,核心期刊等经历。
因为经历过所以更懂小白的痛苦!
因为经历过所以更具有指向性的指导!

祝所有科研工作者都能够在自己的领域上更上一层楼!

所有科研参考资料均可点击此链接,合适的才是最好的,希望我的能力配上你的努力刚好合适!

以下为给大家庭小伙伴们免费更新过的绘图代码,均配有详细教程,超小白也可一键操作! 后续更多提升文章档次的资料的更新请大家庭的小伙伴关注我B站及抖音:Ai学术叫叫兽!

所有科研参考资料均可点击此链接,合适的才是最好的,希望我的能力配上你的努力刚好合适!



所有科研参考资料均可点击此链接,合适的才是最好的,希望我的能力配上你的努力刚好合适!

http://www.jsqmd.com/news/412548/

相关文章:

  • 瑞芯微开发板开机自启动设置
  • FastAsyncWorldEdit zh-cn strings.json 中文汉化
  • **0-1 背包问题中回溯法的搜索过程、通用解题步骤及两种算法实现框架(递归与非递归)**,是算法设计与分析中的经典范例
  • SRE 团队体系建设之路
  • 惊叹!大数据数据增强如何颠覆传统模式
  • int[] 与 integer[] 相互转换
  • Amazon EMR 高可用 EMR 部署注意事项及关键配置
  • SolidPlant 2020管道设计软件安装包(含详细图文教程)|兼容SolidWorks 2017及以上版本
  • 【踩坑】MacOS26上的浏览器无法显示麦克风/摄像头列表
  • 【DFS】BISHI77数水坑
  • SimpleDateFormat(YYYY-MM-dd)格式化时间出现了bug?
  • 《P1973 [NOI2011] NOI 嘉年华》
  • 华为OD机考双机位C卷 - 几何平均值最大子数组 (Java Python JS GO C++ C)
  • 实现一个简单的文本摘要生成器。
  • pyTorch环境搭建及遇到的算力问题
  • 卷积神经网络(CNN)简介-卷积神经网络介绍
  • 【RCCL】RCCL工具
  • 大数据交易数据湖架构设计指南
  • 2026年2月25日
  • 什么是动态住宅 IP 代理?动态 IP 最常用在哪些业务
  • 搜索已死,问答永生:2026年6大特色GEO服务商实战图谱与避坑指南 - 品牌2025
  • LLM支持的AI Agent上下文感知推荐技术
  • langchain架构设计以及应用案例分享
  • AI获客新范式:2026年6大优质GEO服务商全景解析与实战指南 - 品牌2025
  • TypeScript学习
  • 工业AI的赛道有哪些主要玩家?全球竞争格局与未来趋势探讨
  • pycharm安装及环境配置
  • 整车制造计划排程排产系统的创新与实践
  • 工业超级智能体在整车制造如何实现生产优化与决策协同?
  • 告别盲目投放:2026年七大GEO服务商深度拆解与精准匹配 - 品牌2025