当前位置：首页 > news >正文

YOLO系列算法改进 | 主干改进篇 | 替换MobileViGv2可缩放图卷积网络 | 助力模型复杂场景下精细区分目标和理解空间关系 | CVPR 2024

news 2026/3/27 3:20:42

0. 前言

本文介绍了MobileViGv2网络，并将其集成到ultralytics最新发布的YOLO26目标检测算法中，替换原有Backbone网络。MobileViGv2的创新在于将图卷积的稀疏性与位置编码的空间感知能力相结合，通过固定连接数设计解决了前代模型的扩展性问题，使CNN-GNN混合架构在移动端设备的性能达到甚至超越最先进的CNN-ViT模型。将其作为YOLO的backbone，将使目标检测在保持毫秒级推理延迟的同时，获得图神经网络强大的关系建模能力，特别适合需要在移动端实时运行、同时面临密集遮挡和小目标检测挑战的应用场景。

专栏链接：YOLO系列算法改进专栏链接

专栏文章：YOLO26改进系列 | 卷积篇、轻量化、注意力、损失函数、Backbone、SPPF、C2PSA、Neck、检测头全方面保姆级优化合集 | 同样适配YOLOv11改进！！！

0. 前言

1. MobileViGv2网络简介

2. MobileViGv2网络原理与创新点

🧠 MobileViGv2网络基本原理

🎯 MobileViGv2网络创新点

3. 具体改进步骤

🍀🍀步骤1：创建MobileViGv2.py文件

🍀🍀步骤2：tasks.py文件修改

⚡1. MobileViGv2网络导入

⚡2. MobileViGv2网络注册

⚡3. 其他修改1（Ctrl+F搜索定位一下）

⚡4. 其他修改2（Ctrl+F搜索定位一下）

⚡5. 其他修改3（_predict_once函数修改）

🍀🍀步骤3：创建YAML配置文件

🍀🍀步骤4：新建train.py文件训练模型

🍀🍀步骤5：模型结构打印结果

1. MobileViGv2网络简介

为了与现有的移动端架构竞争，MobileViG引入了稀疏视觉图注意力——一种基于图神经网络原理的快速令牌混合算子。然而，MobileViG随着模型尺寸的扩大扩展性较差，与相似延迟的模型相比最多落后1%。本文介绍了移动图卷积，一种新的视觉图神经网络模块，解决了这一扩展问题。我们提出的移动视觉架构MobileViGv2使用MGC来证明我们方法的有效性。MGC通过增加图稀疏性并将条件位置编码引入图操作，改进了SVGA。我们的最小模型MobileViGv2-Ti在ImageNet-1K上达到了77.7%的top-1准确率，比MobileViG-Ti高出2%，在iPhone 13 Mini NPU上推理延迟为0.9毫秒。我们的最大模型MobileViGv2-B达到了83.4%的top-1准确率，比MobileViG-B高出0.8%，推理延迟为2.7毫秒。除了图像分类，我们还展示了MobileViGv2对其他任务的良好泛化能力。在MS COCO 2017的目标检测和实例分割任务中，MobileViGv2-M比MobileViG-M高出1.2 APbox和0.7 APmask，MobileViGv2-B比MobileViG-B高出1.0 APbox和0.7 APmask。在ADE20K的语义分割任务中，MobileViGv2-M达到了42.9%的mIoU，MobileViGv2-

查看全文

http://www.jsqmd.com/news/492837/