当前位置：首页 > news >正文

一文读懂YOLO如何从yolov1进化到yolo26

news 2026/4/30 9:39:30

想象一下，你正在一张照片里寻找一只猫。一个人瞥了一眼照片，立刻说道：“没错，那里有一只猫——在左上角。”很简单，对吧？

对计算机来说，这曾经是一个缓慢而繁琐的多步骤噩梦。首先，扫描成千上万个区域。然后，对每个区域进行分类。最后，确定物体的实际位置。虽然准确率很高，但速度极其缓慢。

2015年，一位名叫约瑟夫·雷德蒙的研究人员提出了一个激进的想法：如果计算机只需要……看一次会怎么样？

这个想法演变成了YOLO（You Only Look Once，你只看一次）——它改变了一切。

目标检测究竟是什么？

在深入了解 YOLO 家族树之前，让我们先快速了解一下目标检测的含义。

目标检测是计算机视觉任务中的一个任务，其中模型：

- 在图像中找出物体（用方框框出物体）
- 给这些物体贴上标签（“猫”、“汽车”、“人”）

它为以下设备提供动力：

🚗 自动驾驶汽车（识别行人和交通信号灯）

🏥 医学影像（肿瘤检测）

📦 仓库自动化（包裹识别）

📸 手机面部解锁

在 YOLO 出现之前，最好的模型是像 R-CNN 这样的两阶段检测器。它们首先预测物体可能存在的位置，然后对每个区域进行分类。这种方法准确，但速度慢——不适合视频或实时应用。

YOLO彻底颠覆了这种观念。

资料分享

我整理好了YOLO全系列论文代码和项目实战，还有目标检测、计算机视觉资料

需要的兄弟可以按照这个图的方式免费获取

YOLOv1 (2015) — 一切的开端

作者：约瑟夫·雷德蒙、桑托什·迪夫瓦拉、罗斯·吉尔希克、阿里·法哈迪

YOLOv1 将目标检测视为一个单一的回归问题。它没有对图像进行多次扫描，而是将图像分割成网格，并预测每个单元格的边界框和类别标签——所有这些都通过神经网络的一次前向传播完成。

你可以这样理解： YOLOv1 就像一位摄影师，一眼就能看到整个场景，而不是像侦探那样慢慢地一间一间地搜查。

关键事实：

- 以每秒 45 帧 (FPS) 的速度处理图像——实时！
- 架构：24 个卷积层 + 2 个全连接层
- 可以检测20 种对象类别
- 局限性：难以抓取小物件和靠得很近的物体。

YOLOv2 / YOLO9000 (2016) — 更智能、更快速

YOLOv2 是一次重大升级。Redmon 引入了锚框（预定义的形状，可以帮助模型更准确地预测边界框）和批量归一化（一种训练技巧，使学习更加稳定）。

最令人惊叹的是，YOLO9000 通过将检测数据与图像分类数据集相结合，能够检测出超过9000 种物体类别。这就是巧妙的数据集工程的力量。

主要改进：

- 使用锚盒可提高精度
- 更高分辨率的图像（416×416）
- 多尺度预测

YOLOv3 (2018) — 暗网经典

YOLOv3引入了功能更强大的骨干网Darknet-53 ，并增加了同时检测三种不同尺度物体的能力。这对于发现大型物体（例如公共汽车）和小型物体（例如背景中的鸟类）都至关重要。

这个版本成为了计算机视觉课程和研究项目中备受青睐的必备工具。即使在今天，许多教程仍然使用YOLOv3。

主要改进：

- 多尺度检测
- 更好的骨干网（Darknet-53）
- 改进的小目标检测

有趣的是： YOLOv3之后，约瑟夫·雷德蒙出于与军事用途相关的伦理问题，退出了计算机视觉研究领域。之后的YOLO版本由新的团队在他开源的基础上开发而成。

YOLOv4 (2020) — 社区接管

作者： Alexey Bochkovskiy、Chien-Yao Wang、Hong-Yuan Mark Liao

YOLOv4 是一次彻底的工程升级。作者们整理了一份庞大的技巧清单——他们称之为“免费赠品包”（训练改进，推理阶段无需任何成本）和“特殊技巧包”（架构的小调整，但准确率却大幅提高）。

新增功能包括：

- Mosaic数据增强——将4张训练图像合并成一张，迫使模型学习处于不寻常环境中的物体。
- CSPDarknet53主干网——更高效的特征学习
- PANet颈部可实现更好的多尺度特征融合
- YOLOv4 在保持速度的同时，准确率也大幅提升。

YOLOv5 (2020) — 民主化者

作者： Ultralytics（格伦·乔彻）

YOLOv5 并没有以学术论文的形式发表，而是直接发布在 GitHub 上，这引起了一些争议。但它的影响力是不可否认的。

YOLOv5是用PyTorch（最流行的深度学习框架）编写的：

- 易于在自定义数据集上进行训练
- 易于导出到移动设备和边缘设备
- 资料翔实，社区氛围极佳

它让非深度学习研究人员也能使用 YOLO。突然之间，任何人都可以用自己的照片训练自定义检测器。这种计算机视觉的普及化是 YOLOv5 最伟大的贡献。

YOLOv6 (2022) — 工业聚焦

作者：美团

YOLOv6 专为工业应用而设计，例如工厂车间、质量控制和物流。它专注于高效部署在硬件加速器上，并在低延迟下实现高吞吐量。

YOLOv7 (2022) — 效率专家

作者：王建耀、Alexey Bochkovskiy、廖宏元

YOLOv7 引入了诸如扩展高效层聚合网络 (E-ELAN)等巧妙的架构技巧和模型扩展技术，在不显著增加计算量的情况下榨取了更多性能。

发布时，它是当时最先进的实时检测器。

YOLOv8 (2023) — 现代标准

作者： Ultralytics

YOLOv8 是一个里程碑式的版本。Ultralytics 从零开始重新设计了架构，并进行了两项重大更改：

- 无锚框检测——该模型不再需要预定义的锚框；它直接预测目标中心，这更简单、更灵活。
- 解耦式处理头——分类和边界框预测任务由不同的分支处理，从而提高了准确率。

YOLOv8 还原生支持多种任务：检测、分割、姿态估计和分类——所有这些都在一个框架中。

它成为计算机视觉领域新的首选模型，至今仍被广泛使用。

YOLOv9 (2024) — 学习真正重要的东西

作者：王建耀、叶一厚、廖鸿源

YOLOv9 解决了一个微妙但重要的问题：信息在深度网络中流动时，部分信息会丢失。关于小物体或精细纹理的重要细节，在数据到达最终预测层时可能会消失。

为了解决这个问题，作者引入了以下方法：

- 可编程梯度信息（PGI） ——确保模型在计算梯度时能够访问原始输入信息。
- GELAN架构——一种高效的特征聚合网络

结果如何？准确率更高，尤其是在处理具有挑战性的数据集时。

YOLOv10 (2024) — 端到端，无 NMS

作者：清华大学研究人员

传统 YOLO 算法的一个恼人瓶颈是非极大值抑制 (NMS) ——一种用于过滤重复检测结果的后处理步骤。NMS 会增加延迟，并使边缘硬件上的部署变得复杂。

YOLOv10 通过双重分配策略解决了这个问题，该策略训练模型生成干净、无冗余的预测结果，从而完全消除了对非极大值抑制（NMS）的需求。这使得部署过程更加简洁高效。

YOLO11（2024）——Ultralytics 的效率升级

作者： Ultralytics（2024年9月）

YOLO11延续了Ultralytics一贯的实用、高质量版本传统。它增加了CSP瓶颈优化和注意力模块，提高了效率，并在检测、分割、姿态估计、跟踪和分类这五项主要任务中均表现出色。

对于稳定的生产工作负载，仍然建议同时使用 YOLO26 和 YOLO11。

YOLOv12（2025）——关注成为焦点

YOLOv12 进行了一次大胆的架构转变：它转向以注意力为中心的设计，借鉴了 Transformer 模型（ChatGPT 背后的架构）的理念，以帮助模型专注于图像中最相关的部分。

这提高了处理具有重叠对象的复杂场景的性能，同时仍能保持实时速度。

YOLOv13 (2025) — 超图细化

YOLOv13 通过基于超图的特征细化技术进一步提升了准确率，该技术能够对检测到的对象之间的复杂关系进行建模。它主要是一个以研究为导向的版本，旨在提升基准测试的数值。

YOLO26（2025）——边缘优先革命

作者： Ultralytics（2025年9月）

这就是我们为您带来的——最新最棒的产品。

YOLO26 代表了YOLO 理念的战略转变。它不再追求最高的基准数字，而是提出了一个不同的问题：我们如何才能让它真正适用于所有地方——手机、无人机、机器人和嵌入式传感器？

YOLO26 有哪些新功能？

1. 不再像 YOLOv10 那样使用 NMS，YOLO26 完全从推理中移除了非最大值抑制，使部署更加简洁快速，尤其是在低功耗设备上。

2. YOLO26 不再使用 DFL ，它摒弃了自 YOLOv8 以来一直使用的分布焦点损失 (DFL)技术。DFL 虽然提高了准确率，但也增加了计算开销并提高了导出复杂度。YOLO26 无需 DFL 即可达到类似的准确率。

3. 渐进损失平衡 (ProgLoss) — 更智能的训练：渐进损失平衡会在训练过程中动态调整模型对不同类型错误的权重。这可以防止模型过度拟合简单、常见的对象，而忽略罕见或较小的对象。

4. STAL — 小物体得到关爱小目标感知标签分配专门改进了模型处理微小物体的方式——这是 YOLO 模型长期以来的弱点。

5. MuSGD 优化器一种新型优化器，旨在训练过程中实现稳定收敛，使 YOLO26 更容易可靠地训练。

它的速度有多快？

基准测试表明，YOLO26 的CPU 推理速度比之前的 YOLO 版本快 43% ——这对边缘部署来说是一个巨大的提升。

一个框架中的五项任务

YOLO26 原生支持：

- 目标检测
- 实例分割
- 姿态/关键点估计
- 定向边界框 (OBB)
- 图像分类

快速入门

from ultralytics import YOLO

# Load a pretrained YOLO26 nano model model = YOLO("yolo26n.pt") # Run inference on an image results = model("your_image.jpg") results[0].show()

YOLO如今在哪些领域得到应用？

YOLO 为几乎所有行业的实际应用提供支持：

- 自动驾驶车辆——实时检测行人、骑行者和车道线
- 医疗保健——识别X光片和视网膜扫描中的异常情况
- 农业——发现作物病害并统计树上的果实
- 零售业——无人收银系统（例如亚马逊的Amazon Go）
- 安防——可对异常活动发出警报的监控摄像头
- 机器人技术——帮助机器人导航并与环境互动

“YOLO26”是什么意思？为什么要跳级？

你可能会想——为什么从 YOLO13 直接跳到 YOLO26？

此次命名并非按顺序排列，而是具有象征意义：它代表了 Ultralytics 对“26”的愿景——一个为应对 2025 年及以后的挑战而打造的模型，强调边缘部署、简洁性和多功能性。与其说是版本号，不如说是产品名称的更新。

YOLO的下一步是什么？

YOLO（You Only Live Once，你只活一次）的故事远未结束。随着这一领域朝着以下方向发展：

零样本检测（发现以前从未见过的物体，就像 YOLO 世界一样）
- 多模态模型（结合视觉和语言）
- 智能手机和物联网传感器上的设备端人工智能

查看全文

http://www.jsqmd.com/news/724400/

异构量子架构设计：突破量子计算不可能三角

掌握扣子AI这6个核心模块，学生党、职场人高效通关

告别硬编码！在VS2022中安全管理SQL Server连接字符串的几种实用方法

独立t检验怎么做：软件操作步骤与结果指标解读

Flight-Readsb 离线地图部署指南

25个免费Illustrator脚本终极指南：快速提升设计效率300%

qmcdump终极指南：免费解锁QQ音乐加密文件，让音乐随处播放

从‘最弱智’到‘自适应’：用Python+OpenCV玩转图像二值化，附完整代码与效果图

从SimCLR到CLIP：对比学习在CV领域的演进与落地思考（附避坑指南）

抖音内容批量下载终极指南：免费高效的视频保存工具

5分钟快速搭建多平台直播系统：obs-multi-rtmp完全指南

小伙伴投稿-怎么算豁的出去

【AI面试临阵磨枪-33】Agent 死循环、目标漂移、重复调用如何解决？

CF刷题记录及题解

X1501 Pico SoM：16mm微型Linux模块的嵌入式开发实践

魔兽争霸3终极性能优化指南：WarcraftHelper完整配置让帧率稳定180+

小伙伴投稿-自己真实的需求是什么-怎么寻找

别再只画原理图了！FPC柔性板电气设计避坑指南（附载流/阻抗/屏蔽实战表）

大白话讲清楚什么是模型？什么是神经网络？

终极PS4存档管理指南：Apollo Save Tool完全使用教程

同态加密中多输入密文乘法的优化技术与硬件实现

魔兽争霸3终极优化伴侣：WarcraftHelper让你的经典游戏焕发新生

单行垂直居中

【IT研发实用Skill】clickhouse-io 技能

Labelme标注数据清洗实战：用Python批量重命名、替换和删除特定标签（附完整代码）

【限时技术解禁】：VS Code Dev Containers 生产就绪Checklist（含OCI镜像签名、SBOM生成、FIPS合规配置）

PHP容器镜像国产化改造：从Docker到iSulad，3步完成ARM64适配+国密SM4加密集成

AMD Ryzen处理器深度调试：SMUDebugTool高效实战指南

别再死记硬背MESI了！用AMBA ACE/CHI协议实战案例，搞懂多核Cache一致性的硬件代价