YOLO11性能暴增:Backbone换血 | 彻底替换为EfficientViT,微软CVPR2023神作,实现高分辨率图像的实时检测
一、开篇:目标检测的速度困局与Transformer浪潮
计算机视觉领域在过去十年里经历了一场深刻的范式转变。从手工设计特征到CNN的全面接管,再到如今Vision Transformer(ViT)的强势崛起,每一次变革都带来了性能的巨大飞跃。YOLO系列作为实时目标检测的标杆框架,已经走到了第11代——YOLO11在COCO数据集上的mAP(0.5:0.95)已达到58.7%,同时保持45FPS的推理速度(NVIDIA V100),较YOLOv8版本获得了显著性能提升。
然而,一个日益突出的矛盾正在浮现:模型精度在涨,推理延迟却在增加。YOLO11的Backbone默认使用C3K2(Cross Stage Partial blocks with kernels)模块,通过连续的卷积层和残差块在多个空间分辨率下提取丰富的视觉特征。虽然这一设计在小尺寸场景下表现出色,但面对日益增长的高分辨率图像检测需求(如遥感影像、工业质检、医学影像),计算量呈二次方级别增长,边缘设备几乎无法负荷。
就在这个节骨眼上,一篇来自CVPR 2023的重量级论文给出了令人振奋的答案。香港中文大学联合微软研究院提出的EfficientViT,凭借“三明治布局”与“级联分组注意力”两大杀手锏,成功解决了Transformer在实时场景中的内存瓶颈——在精度超越MobileNetV3-Large 1.9%的同时,Nvidia V100 GPU和Intel Xeon CPU上的吞吐量分别提升了40.4%和45.2%,转换为ONNX格式后更可实现7.4倍加速。
当Y
