当前位置: 首页 > news >正文

YOLO系列算法改进 | 主干改进篇 | 替换MobileViGv2可缩放图卷积网络 | 助力模型复杂场景下精细区分目标和理解空间关系 | CVPR 2024

0. 前言

本文介绍了MobileViGv2网络,并将其集成到ultralytics最新发布的YOLO26目标检测算法中,替换原有Backbone网络。MobileViGv2的创新在于将图卷积的稀疏性与位置编码的空间感知能力相结合,通过固定连接数设计解决了前代模型的扩展性问题,使CNN-GNN混合架构在移动端设备的性能达到甚至超越最先进的CNN-ViT模型。将其作为YOLO的backbone,将使目标检测在保持毫秒级推理延迟的同时,获得图神经网络强大的关系建模能力,特别适合需要在移动端实时运行、同时面临密集遮挡和小目标检测挑战的应用场景。

专栏链接:YOLO系列算法改进专栏链接

专栏文章:YOLO26改进系列 | 卷积篇、轻量化、注意力、损失函数、Backbone、SPPF、C2PSA、Neck、检测头全方面保姆级优化合集 | 同样适配YOLOv11改进!!!

目录

0. 前言

1. MobileViGv2网络简介

2. MobileViGv2网络原理与创新点

🧠 MobileViGv2网络基本原理

🎯 MobileViGv2网络创新点

3. 具体改进步骤

🍀🍀步骤1:创建MobileViGv2.py文件

🍀🍀步骤2:tasks.py文件修改

⚡1. MobileViGv2网络导入

⚡2. MobileViGv2网络注册

⚡3. 其他修改1(Ctrl+F搜索定位一下)

⚡4. 其他修改2(Ctrl+F搜索定位一下)

⚡5. 其他修改3(_predict_once函数修改)

🍀🍀步骤3:创建YAML配置文件

🍀🍀步骤4:新建train.py文件训练模型

🍀🍀步骤5:模型结构打印结果


1. MobileViGv2网络简介

为了与现有的移动端架构竞争,MobileViG引入了稀疏视觉图注意力——一种基于图神经网络原理的快速令牌混合算子。然而,MobileViG随着模型尺寸的扩大扩展性较差,与相似延迟的模型相比最多落后1%。本文介绍了移动图卷积,一种新的视觉图神经网络模块,解决了这一扩展问题。我们提出的移动视觉架构MobileViGv2使用MGC来证明我们方法的有效性。MGC通过增加图稀疏性并将条件位置编码引入图操作,改进了SVGA。我们的最小模型MobileViGv2-Ti在ImageNet-1K上达到了77.7%的top-1准确率,比MobileViG-Ti高出2%,在iPhone 13 Mini NPU上推理延迟为0.9毫秒。我们的最大模型MobileViGv2-B达到了83.4%的top-1准确率,比MobileViG-B高出0.8%,推理延迟为2.7毫秒。除了图像分类,我们还展示了MobileViGv2对其他任务的良好泛化能力。在MS COCO 2017的目标检测和实例分割任务中,MobileViGv2-M比MobileViG-M高出1.2 APbox和0.7 APmask,MobileViGv2-B比MobileViG-B高出1.0 APbox和0.7 APmask。在ADE20K的语义分割任务中,MobileViGv2-M达到了42.9%的mIoU,MobileViGv2-

http://www.jsqmd.com/news/492837/

相关文章:

  • Prescan与Simulink联合仿真AEB模型:实现自动避撞停车
  • 泊车路径规划:几何方法实现的魅力
  • Deeplab - v3与ISIC皮肤病分割数据集实战
  • COMSOL:木材吸水(毛细效应)模型介绍
  • Android 硬件测试全流程方法论 —— 从性能、功耗到稳定性(测试工程师必看)
  • 多语言编程:Yi-Coder-1.5B支持52种语言实战演示
  • 探索一维光子晶体超窄带滤波器:从光学仿真到Matlab实现
  • 【RAG】【Data-Processor】【node_parsers04】SlideNodeParser文档解析示例
  • 挑选AI外包团队的“五看一评”标准,帮你避开90%的坑
  • 【RAG】【Data-Processor】【node_parsers05】TopicNodeParser主题解析示例
  • USB 5V电表设计:基于N32G430与INA199的嵌入式电源监测方案
  • AI投资回报率的“三维度”评估法:不只算钱,更要算清这些隐性价值
  • 融合正余弦和柯西变异的麻雀搜索算法优化CNN - BiLSTM
  • 机器视觉学习总结
  • ENSP模拟验证VLAN不同端口类型对数据帧的收发情况
  • SiameseAOE实战:快速分析餐厅/酒店/商品评论,小白也能搞定
  • 功率分流混联式混合动力车辆热管理建模与性能计算分析,对标丰田混合动力EVT构型,利用Simul...
  • WPF implement ICommand with async execute
  • 基于Qwen3-ForcedAligner-0.6B的智能字幕生成系统:SpringBoot整合实战
  • 【2026年拼多多春招- 3月15日 -第三题- 多多的配送轨迹】(题目+思路+JavaC++Python解析+在线测试)
  • Gateway 服务器 WebSocket 创建与处理流程分析
  • STM入门(12)
  • Qwen3-14B保姆级部署教程:3步搞定企业级AI客服,小白也能快速上手
  • YOLO26实战全流程:从数据集标注到端到端无NMS推理(附ProgLoss调参技巧)
  • BV电视版 0.3.14.r877 | 纯净好用的第三方B站TV,支持8K视频
  • 如何用Python+OpenCV快速搭建草莓病虫害检测系统(附数据集下载)
  • 运维3年裸辞转行:告别7×24小时背锅,我用4个月逆袭上岸(附全流程实操指南)
  • 亚洲美女-造相Z-Turbo效果对比:Z-Image-Turbo基模 vs LoRA微调版亚洲特征强化分析
  • Phi-3-vision-128k-instruct惊艳效果展示:高精度图文理解生成作品集
  • 从实验室到生产线:YOLOv11多任务统一框架(检测+分割+姿态估计)行业应用