YOLO11涨点优化:注意力机制 | Omni-dimensional Dynamic Convolution (ODConv) 兼具卷积与注意力特性,全维度涨点
为什么你的YOLO11在大目标上惊艳,小目标却频频漏检?
这个问题困扰了我整整两年。YOLO11作为Ultralytics在2024年9月发布的旗舰模型,凭借其C3k2模块(替代此前的C2f)和C2PSA注意力模块,在COCO数据集上相比YOLOv8m少用22%的参数却实现了更高的mAP。根据Ultralytics官方博客于2026年1月20日的介绍,YOLO11通过增强特征提取功能和更高效的架构设计,在实时物体检测、实例分割和姿态估计等多个任务上都有显著提升。2026年3月12日,MLCommons正式宣布YOLO11被采纳为MLPerf Inference v6.0 Edge套件的官方目标检测模型,标志着它已成为行业级别的工业基准。
然而,即便如此强大的模型,在面对多尺度目标检测场景时仍存在明显的短板。大目标需要大感受野来捕获全局结构,小目标则需要精细的局部特征来区分细节——用一个静态的卷积核同时应对这些差异,就像用一把螺丝刀去修所有类型的手机,总会有拧不动的地方。
有没有一种方法,让卷积核能够根据输入内容动态调整,同时在卷积的多个维度上赋予模型“注意力”能力?
答案是肯定的。这就是本文要深入剖析的主角——ODConv(Omni-dimensional Dynamic Convolution,全维度动态卷积)。它最早由英特尔中国实验室的Chao Li、Aojun Zhou、Anbang Yao等人在ICLR 2022上提出,论文宣称在I
