当前位置: 首页 > news >正文

【Yolov11】《Yolov11: An overview of the key architectural enhancements》

arXiv-2024

代码:

  • https://github.com/ultralytics/ultralytics

文档:

  • Ultralytics YOLO11
  • 使用 Ultralytics YOLO 进行模型训练

文章目录

  • 1、Background and Motivation
  • 2、Related Work
  • 3、Evolution of YOLO models
  • 4、Architectural footprint of Yolov11
    • 4.1、Backbone
    • 4.2、Neck
    • 4.3、Head
  • 5、Key Computer Vision Tasks Supported by YOLO11
  • 6、Advancements and Key Features of YOLOv11
  • 7、Discussion
  • 8、Conclusion(own) / Future work
  • 附录
    • C3K2
    • C2PSA
    • YOLOV11 可改进的地方
    • 多卡调用本地源码
    • 统计模型参数和计算量

1、Background and Motivation

Background

  • 计算机视觉的快速发展
  • YOLO系列模型的演进
  • YOLOv11的发布

Motivation

  • 提升对象检测性能
  • 优化模型效率和可扩展性
  • 推动实时计算机视觉应用的发展

This study presents an architectural analysis of YOLOv11, the latest iteration in the YOLO (You Only Look Once) series of object detection models.

芒果YOLO11算法解析-最新YOLO11结构图以及YOLO11各部分细致结构图解析

2、Related Work

yolov1 ~ yolov10

3、Evolution of YOLO models


这个 contributions 不知道准不准确,早期的 yolov5 应该是 anchor-based ,不过引用[10] 指向的不是 v5 官网地址

4、Architectural footprint of Yolov11

核心改动是C3K2( Cross Stage Partial with kernel size 2)C2PSA (Convolutional block with Parallel Spatial Attention)

看源码的描述 2 好像是 two convolution 的意思 (two c3k),并非 kernel size

# YOLO11n backbonebackbone:# [from, repeats, module, args]-[-1,1,Conv,[64,3,2]]# 0-P1/2-[-1,1,Conv,[128,3,2]]# 1-P2/4-[-1,2,C3k2,[256,False,0.25]]-[-1,1,Conv,[256,3,2]]# 3-P3/8-[-1,2,C3k2,[512,False,0.25]]-[-1,1,Conv,[512,3,2]]# 5-P4/16-[-1,2,C3k2,[512,True]]-[-1,1,Conv,[1024,3,2]]# 7-P5/32-[-1,2,C3k2,[1024,True]]-[-1,1,SPPF,[1024,5]]# 9-[-1,2,C2PSA,[1024]]# 10# YOLO11n headhead:-[-1,1,nn.Upsample,[None,2,"nearest"]]-[[-1,6],1,Concat,[1]]# cat backbone P4-[-1,2,C3k2,[512,False]]# 13-[-1,1,nn.Upsample,[None,2,"nearest"]]-[[-1,4],1,Concat,[1]]# cat backbone P3-[-1,2,C3k2,
http://www.jsqmd.com/news/513658/

相关文章:

  • 华为华三设备CLI分页功能禁用全攻略:从临时关闭到永久配置
  • 从生成到上线:一份超详细的Metasploit msfvenom木马生成与监听配置指南(含Windows/Linux/Android)
  • Gemma-3-270m在计算机网络流量分析中的应用
  • ParadeDB错误码速查:PostgreSQL搜索异常诊断指南
  • 如何快速掌握volkswagen项目:目录结构与核心功能全解析
  • 开箱即用:Yi-Coder-1.5B部署教程,支持128K长文本
  • 【软考】--软件评测师考试核心知识点与实战备考全攻略
  • SSD1303 OLED驱动库深度解析:硬件设计、初始化与I²C/SPI工程实践
  • Qwen-Image镜像企业实操:用RTX4090D+Qwen-VL构建多模态客服图文问答系统
  • EVE-NG 社区版 v6.2.0-4 深度解析:从 Apache 优化到跨平台部署的演进
  • Linux服务器离线部署Java项目,保姆级OpenJDK 11安装与环境变量配置指南
  • Qwen3-32B-Chat百度开发者学习资源包:含镜像离线下载、CLI工具、压力测试脚本
  • ONLYOFFICE Docs监控告警升级流程:从警告到严重的响应指南
  • 如何成为Axios贡献者:完整的协作指南与最佳实践
  • Phi-3-vision-128k-instruct IntelliJ IDEA高效使用技巧:从破解版到正版最佳实践
  • ParadeDB全文搜索与关系查询混合使用技巧:提升数据检索效率的完整指南
  • 风储模型中的功率分配策略解析与优化策略探究
  • 前端资源加载策略:ONLYOFFICE Docs实现关键路径优化
  • 如何构建完整的Terratest持续测试流程:与Travis CI集成的终极指南
  • PP-DocLayoutV3入门实战:从单页PDF截图到生成Markdown结构化文本
  • Qwen3.5-9B镜像免配置:开箱即用的多模态大模型Web UI部署案例分享
  • 手把手教你用Vivado布局规划:针对多SLR器件的关键信号跨区域约束实战
  • 保姆级教程:在Windows和Ubuntu上配置Deeplearning4j环境(含Maven和Java安装)
  • Qwen-Image惊艳效果呈现:RTX4090D下Qwen-VL对动态截图、PPT幻灯片的实时理解
  • Nitro WebSocket API设计:构建实时应用的最佳实践
  • BootstrapBlazor滑块验证:Slider组件表单验证完整指南
  • 用STM32CubeMX给FreeRTOS和LVGL做媒人,结果GUI不显示?手把手教你搞定这两个冤家
  • Naive Ui Admin中的全局异常处理:错误边界组件
  • LightOnOCR-2-1B部署教程:Linux服务器环境检查、端口冲突解决与权限配置
  • GTE+SeqGPT轻量生成实战:SeqGPT在会议纪要要点提取任务中的F1值实测