当前位置: 首页 > news >正文

一文读懂YOLO如何从yolov1进化到yolo26

想象一下,你正在一张照片里寻找一只猫。一个人瞥了一眼照片,立刻说道:“没错,那里有一只猫——在左上角。”很简单,对吧?

对计算机来说,这曾经是一个缓慢而繁琐的多步骤噩梦。首先,扫描成千上万个区域。然后,对每个区域进行分类。最后,确定物体的实际位置。虽然准确率很高,但速度极其缓慢。

2015年,一位名叫约瑟夫·雷德蒙的研究人员提出了一个激进的想法:如果计算机只需要……看一次会怎么样?

这个想法演变成了YOLO(You Only Look Once,你只看一次)——它改变了一切。


目标检测究竟是什么?

在深入了解 YOLO 家族树之前,让我们先快速了解一下目标检测的含义。

目标检测是计算机视觉任务中的一个任务,其中模型:

    • 在图像中找出物体(用方框框出物体)

    • 给这些物体贴上标签(“猫”、“汽车”、“人”)

它为以下设备提供动力:

🚗 自动驾驶汽车(识别行人和交通信号灯)

🏥 医学影像(肿瘤检测)

📦 仓库自动化(包裹识别)

📸 手机面部解锁

在 YOLO 出现之前,最好的模型是像 R-CNN 这样的两阶段检测器。它们首先预测物体可能存在的位置,然后对每个区域进行分类。这种方法准确,但速度慢——不适合视频或实时应用。

YOLO彻底颠覆了这种观念。


资料分享

我整理好了YOLO全系列论文代码和项目实战,还有目标检测、计算机视觉资料

需要的兄弟可以按照这个图的方式免费获取


YOLOv1 (2015) — 一切的开端

作者:约瑟夫·雷德蒙、桑托什·迪夫瓦拉、罗斯·吉尔希克、阿里·法哈迪

YOLOv1 将目标检测视为一个单一的回归问题。它没有对图像进行多次扫描,而是将图像分割成网格,并预测每个单元格的边界框和类别标签——所有这些都通过神经网络的一次前向传播完成。

你可以这样理解: YOLOv1 就像一位摄影师,一眼就能看到整个场景,而不是像侦探那样慢慢地一间一间地搜查。

关键事实:

    • 以每秒 45 帧 (FPS) 的速度处理图像——实时!

    • 架构:24 个卷积层 + 2 个全连接层

    • 可以检测20 种对象类别

    • 局限性:难以抓取小物件和靠得很近的物体。


YOLOv2 / YOLO9000 (2016) — 更智能、更快速

YOLOv2 是一次重大升级。Redmon 引入了锚框(预定义的形状,可以帮助模型更准确地预测边界框)和批量归一化(一种训练技巧,使学习更加稳定)。

最令人惊叹的是,YOLO9000 通过将检测数据与图像分类数据集相结合,能够检测出超过9000 种物体类别。这就是巧妙的数据集工程的力量。

主要改进:

    • 使用锚盒可提高精度

    • 更高分辨率的图像(416×416)

    • 多尺度预测


YOLOv3 (2018) — 暗网经典

YOLOv3引入了功能更强大的骨干网Darknet-53 ,并增加了同时检测三种不同尺度物体的能力。这对于发现大型物体(例如公共汽车)和小型物体(例如背景中的鸟类)都至关重要。

这个版本成为了计算机视觉课程和研究项目中备受青睐的必备工具。即使在今天,许多教程仍然使用YOLOv3。

主要改进:

    • 多尺度检测

    • 更好的骨干网(Darknet-53)

    • 改进的小目标检测

有趣的是: YOLOv3之后,约瑟夫·雷德蒙出于与军事用途相关的伦理问题,退出了计算机视觉研究领域。之后的YOLO版本由新的团队在他开源的基础上开发而成。


YOLOv4 (2020) — 社区接管

作者: Alexey Bochkovskiy、Chien-Yao Wang、Hong-Yuan Mark Liao

YOLOv4 是一次彻底的工程升级。作者们整理了一份庞大的技巧清单——他们称之为“免费赠品包”(训练改进,推理阶段无需任何成本)和“特殊技巧包”(架构的小调整,但准确率却大幅提高)。

新增功能包括:

    • Mosaic数据增强——将4张训练图像合并成一张,迫使模型学习处于不寻常环境中的物体。

    • CSPDarknet53主干网——更高效的特征学习

    • PANet颈部可实现更好的多尺度特征融合

    • YOLOv4 在保持速度的同时,准确率也大幅提升。


YOLOv5 (2020) — 民主化者

作者: Ultralytics(格伦·乔彻)

YOLOv5 并没有以学术论文的形式发表,而是直接发布在 GitHub 上,这引起了一些争议。但它的影响力是不可否认的。

YOLOv5是用PyTorch(最流行的深度学习框架)编写的:

    • 易于在自定义数据集上进行训练

    • 易于导出到移动设备和边缘设备

    • 资料翔实,社区氛围极佳

它让非深度学习研究人员也能使用 YOLO。突然之间,任何人都可以用自己的照片训练自定义检测器。这种计算机视觉的普及化是 YOLOv5 最伟大的贡献。


YOLOv6 (2022) — 工业聚焦

作者:美团

YOLOv6 专为工业应用而设计,例如工厂车间、质量控制和物流。它专注于高效部署在硬件加速器上,并在低延迟下实现高吞吐量。


YOLOv7 (2022) — 效率专家

作者:王建耀、Alexey Bochkovskiy、廖宏元

YOLOv7 引入了诸如扩展高效层聚合网络 (E-ELAN)等巧妙的架构技巧和模型扩展技术,在不显著增加计算量的情况下榨取了更多性能。

发布时,它是当时最先进的实时检测器。


YOLOv8 (2023) — 现代标准

作者: Ultralytics

YOLOv8 是一个里程碑式的版本。Ultralytics 从零开始重新设计了架构,并进行了两项重大更改:

    • 无锚框检测——该模型不再需要预定义的锚框;它直接预测目标中心,这更简单、更灵活。

    • 解耦式处理头——分类和边界框预测任务由不同的分支处理,从而提高了准确率。

YOLOv8 还原生支持多种任务:检测、分割、姿态估计和分类——所有这些都在一个框架中。

它成为计算机视觉领域新的首选模型,至今仍被广泛使用。


YOLOv9 (2024) — 学习真正重要的东西

作者:王建耀、叶一厚、廖鸿源

YOLOv9 解决了一个微妙但重要的问题:信息在深度网络中流动时,部分信息会丢失。关于小物体或精细纹理的重要细节,在数据到达最终预测层时可能会消失。

为了解决这个问题,作者引入了以下方法:

    • 可编程梯度信息(PGI) ——确保模型在计算梯度时能够访问原始输入信息。

    • GELAN架构——一种高效的特征聚合网络

结果如何?准确率更高,尤其是在处理具有挑战性的数据集时。


YOLOv10 (2024) — 端到端,无 NMS

作者:清华大学研究人员

传统 YOLO 算法的一个恼人瓶颈是非极大值抑制 (NMS) ——一种用于过滤重复检测结果的后处理步骤。NMS 会增加延迟,并使边缘硬件上的部署变得复杂。

YOLOv10 通过双重分配策略解决了这个问题,该策略训练模型生成干净、无冗余的预测结果,从而完全消除了对非极大值抑制(NMS)的需求。这使得部署过程更加简洁高效。


YOLO11(2024)——Ultralytics 的效率升级

作者: Ultralytics(2024年9月)

YOLO11延续了Ultralytics一贯的实用、高质量版本传统。它增加了CSP瓶颈优化和注意力模块,提高了效率,并在检测、分割、姿态估计、跟踪和分类这五项主要任务中均表现出色。

对于稳定的生产工作负载,仍然建议同时使用 YOLO26 和 YOLO11。


YOLOv12(2025)——关注成为焦点

YOLOv12 进行了一次大胆的架构转变:它转向以注意力为中心的设计,借鉴了 Transformer 模型(ChatGPT 背后的架构)的理念,以帮助模型专注于图像中最相关的部分。

这提高了处理具有重叠对象的复杂场景的性能,同时仍能保持实时速度。


YOLOv13 (2025) — 超图细化

YOLOv13 通过基于超图的特征细化技术进一步提升了准确率,该技术能够对检测到的对象之间的复杂关系进行建模。它主要是一个以研究为导向的版本,旨在提升基准测试的数值。


YOLO26(2025)——边缘优先革命

作者: Ultralytics(2025年9月)

这就是我们为您带来的——最新最棒的产品。

YOLO26 代表了YOLO 理念的战略转变。它不再追求最高的基准数字,而是提出了一个不同的问题:我们如何才能让它真正适用于所有地方——手机、无人机、机器人和嵌入式传感器?

YOLO26 有哪些新功能?

1. 不再像 YOLOv10 那样使用 NMS,YOLO26 完全从推理中移除了非最大值抑制,使部署更加简洁快速,尤其是在低功耗设备上。

2. YOLO26 不再使用 DFL ,它摒弃了自 YOLOv8 以来一直使用的分布焦点损失 (DFL)技术。DFL 虽然提高了准确率,但也增加了计算开销并提高了导出复杂度。YOLO26 无需 DFL 即可达到类似的准确率。

3. 渐进损失平衡 (ProgLoss) — 更智能的训练:渐进损失平衡会在训练过程中动态调整模型对不同类型错误的权重。这可以防止模型过度拟合简单、常见的对象,而忽略罕见或较小的对象。

4. STAL — 小物体得到关爱 小目标感知标签分配专门改进了模型处理微小物体的方式——这是 YOLO 模型长期以来的弱点。

5. MuSGD 优化器一种新型优化器,旨在训练过程中实现稳定收敛,使 YOLO26 更容易可靠地训练。

它的速度有多快?

基准测试表明,YOLO26 的CPU 推理速度比之前的 YOLO 版本快 43% ——这对边缘部署来说是一个巨大的提升。

一个框架中的五项任务

YOLO26 原生支持:

    • 目标检测

    • 实例分割

    • 姿态/关键点估计

    • 定向边界框 (OBB)

    • 图像分类

快速入门

from ultralytics import YOLO
# Load a pretrained YOLO26 nano model model = YOLO("yolo26n.pt") # Run inference on an image results = model("your_image.jpg") results[0].show()

YOLO如今在哪些领域得到应用?

YOLO 为几乎所有行业的实际应用提供支持:

    • 自动驾驶车辆——实时检测行人、骑行者和车道线

    • 医疗保健——识别X光片和视网膜扫描中的异常情况

    • 农业——发现作物病害并统计树上的果实

    • 零售业——无人收银系统(例如亚马逊的Amazon Go)

    • 安防——可对异常活动发出警报的监控摄像头

    • 机器人技术——帮助机器人导航并与环境互动

“YOLO26”是什么意思?为什么要跳级?

你可能会想——为什么从 YOLO13 直接跳到 YOLO26?

此次命名并非按顺序排列,而是具有象征意义:它代表了 Ultralytics 对“26”的愿景——一个为应对 2025 年及以后的挑战而打造的模型,强调边缘部署、简洁性和多功能性。与其说是版本号,不如说是产品名称的更新。

YOLO的下一步是什么?

YOLO(You Only Live Once,你只活一次)的故事远未结束。随着这一领域朝着以下方向发展:

  • 零样本检测(发现以前从未见过的物体,就像 YOLO 世界一样)
    • 多模态模型(结合视觉和语言)

    • 智能手机和物联网传感器上的设备端人工智能

http://www.jsqmd.com/news/724400/

相关文章:

  • 异构量子架构设计:突破量子计算不可能三角
  • 掌握扣子AI这6个核心模块,学生党、职场人高效通关
  • 告别硬编码!在VS2022中安全管理SQL Server连接字符串的几种实用方法
  • 独立t检验怎么做:软件操作步骤与结果指标解读
  • Flight-Readsb 离线地图部署指南
  • 25个免费Illustrator脚本终极指南:快速提升设计效率300%
  • qmcdump终极指南:免费解锁QQ音乐加密文件,让音乐随处播放
  • 从‘最弱智’到‘自适应’:用Python+OpenCV玩转图像二值化,附完整代码与效果图
  • 从SimCLR到CLIP:对比学习在CV领域的演进与落地思考(附避坑指南)
  • 抖音内容批量下载终极指南:免费高效的视频保存工具
  • 5分钟快速搭建多平台直播系统:obs-multi-rtmp完全指南
  • 小伙伴投稿-怎么算豁的出去
  • 【AI面试临阵磨枪-33】Agent 死循环、目标漂移、重复调用如何解决?
  • CF刷题记录及题解
  • X1501 Pico SoM:16mm微型Linux模块的嵌入式开发实践
  • 魔兽争霸3终极性能优化指南:WarcraftHelper完整配置让帧率稳定180+
  • 小伙伴投稿-自己真实的需求是什么-怎么寻找
  • 别再只画原理图了!FPC柔性板电气设计避坑指南(附载流/阻抗/屏蔽实战表)
  • 大白话讲清楚什么是模型?什么是神经网络?
  • 【稀缺首发】R 4.4+最新fairmodels v2.1深度适配指南:一键生成符合欧盟AI Act第5条要求的偏见检测报告
  • 终极PS4存档管理指南:Apollo Save Tool完全使用教程
  • 同态加密中多输入密文乘法的优化技术与硬件实现
  • 魔兽争霸3终极优化伴侣:WarcraftHelper让你的经典游戏焕发新生
  • 单行垂直居中
  • 【IT研发实用Skill】clickhouse-io 技能
  • Labelme标注数据清洗实战:用Python批量重命名、替换和删除特定标签(附完整代码)
  • 【限时技术解禁】:VS Code Dev Containers 生产就绪Checklist(含OCI镜像签名、SBOM生成、FIPS合规配置)
  • PHP容器镜像国产化改造:从Docker到iSulad,3步完成ARM64适配+国密SM4加密集成
  • AMD Ryzen处理器深度调试:SMUDebugTool高效实战指南
  • 别再死记硬背MESI了!用AMBA ACE/CHI协议实战案例,搞懂多核Cache一致性的硬件代价