当前位置：首页 > news >正文

05.YOLO的预测机制：从图像到边界框

news 2026/6/23 2:52:09

在环境搭建完成后，你可能会好奇：当我们把一张图片输入YOLO模型，它究竟是如何识别出物体并输出位置的呢？这个过程的核心就是YOLO的预测机制。理解它，是掌握YOLO工作原理的第一步。

首先，YOLO不采用滑动窗口或区域提议这类传统方法，而是将物体检测看作一个单一的回归问题。它一次性读取整张图片，并直接输出边界框（Bounding Box）的坐标、类别概率和置信度。这种“只看一眼”的设计使得YOLO的速度极快。

具体来说，YOLO将输入图片划分成一个网格。例如，对于416x416像素的输入，YOLO会将其分成13x13、26x26或52x52的网格（不同版本网格大小不同，但原理一致）。每个网格单元格负责检测物体。如果一个物体的中心落在某个网格内，该网格就负责检测这个物体。注意，这里说的是物体的中心，而不是整个物体。一个网格可能包含多个物体的不同部分，但只要中心点落在该网格，就由它负责。

每个网格会预测固定数量的边界框。比如，YOLOv3的每个网格预测3个边界框。每个边界框包含5个值：x、y、w、h和置信度（confidence）。x和y是边界框中心相对于网格单元格边界的偏移量，被归一化到0到1之间。w和h是边界框的宽和高相对于整张图片的比值，也被归一化。置信度代表这个边界框内包含物体的可能性，以及预测框与真实框（ground truth）的交并比（IoU）。公式可以简单理解为：置信度 = Pr(Object) * IoU(pred, truth)。如果网格内没有物体，置信度就为0。如果有物体，置信度就等于预测框与真实框的IoU值。

除了这些坐标和置信度，每个网格还会预测C个类别概率，C是数据集中的类别总数（例如COCO数据集有80类）。这些概率表示在包含物体的前提下，该物体属于某一类的可能性。注意，类别概率

查看全文

http://www.jsqmd.com/news/706404/