YOLO11性能暴增:主干网络升级 | 替换为PoolFormer主干,用最简单的池化操作替代自注意力,化繁为简的艺术
一、从“看一次”到“看清一切”:YOLO11的时代坐标
1.1 YOLO的进化与效率困局
2016年至今,YOLO系列以“单阶段实时检测”的简洁路线,在计算机视觉领域撑起了半壁江山。短短数年,从YOLOv1的两个边界框预测到YOLOv3的多尺度特征融合,从YOLOv4的马赛克增强到YOLOv8的解耦检测头——每一代升级几乎都在往“更强大的骨干、更复杂的结构、更昂贵的Token混合机制”方向靠拢。
代价也随之而来。Transformer式自注意力以平方复杂度计算全局依赖,使模型体积膨胀、推理延迟上升——工业相机、巡检无人机、嵌入式SoC压根接不住。轻量化模型的核心痛点从来不在于“能不能跑”,而在于“能不能在边缘设备上跑得又快又好”。
YOLO11正是在这样的时代背景下登场的。
2024年9月30日,Ultralytics在YOLO Vision 2024大会上正式发布YOLO11,由Glenn Jocher和Jing Qiu主导开发。它在延续CSPDarknet骨干的基础上引入三项关键创新:C3k2模块替代C2f结构实现精细化跨阶段特征融合,SPPF快速空间金字塔池化压缩多尺度语义,C2PSA旁路空间注意力增强小目标的感受野响应。视觉检测之外,YOLO11还统一支持实例分割、姿态估计、图像分类等多类任务。
凭借这些创新,YOLO11一举成为MLPerf Inference v6.0 Edge套件的官方目标检测模型,于2026年3月12日由MLCommons正式宣布,被评价为“参数效率和原始精度的重大
