YOLO11性能暴增:Backbone换血 | 引入Mamba-Vision作为特征提取骨干,序列化建模降维打击传统CNN
引言:当目标检测遇见状态空间模型,一场“降维打击”正在发生
2026年1月,Ultralytics在YOLO Vision 2024大会上正式发布了YOLO11,宣称其在精度与效率之间达到了前所未有的平衡。根据Ultralytics官方博客的数据,YOLO11m在COCO数据集上以比YOLOv8m少22%的参数实现了更高的mAP,成为边缘端推理的新标杆。同年3月,MLCommons正式宣布YOLO11被采纳为MLPerf Inference v6.0 Edge套件的官方目标检测模型,标志着YOLO11在工业界获得了最权威的基准认可。
然而,放眼学术前沿,另一股技术浪潮正在以惊人的速度席卷视觉领域——状态空间模型(State Space Model, SSM)。以Mamba为代表的SSM架构凭借线性时间复杂度的序列建模能力,直接在NLP领域对Transformer发起了挑战。而今,这场技术风暴正式登陆计算机视觉。
将Mamba视觉骨干网络引入YOLO系列,成为2025年目标检测领域最炙手可热的研究方向。Mamba-YOLO(发表于AAAI 2025)开创性地提出将ODMamba骨干网络嵌入YOLO框架,在COCO上以1.5毫秒的极致推理延迟实现了mAP暴涨7.5%的惊人成绩。与此同时,NVIDIA Research团队于CVPR 2025上提出的MambaVision混合骨干网络,以创新的Mamba-Transformer混合架构,在ImageNet-1K上刷新了Top-1精度与吞吐量的SOTA Pareto前沿。
