当前位置：首页 > news >正文

fjvihcicipcjacv

news 2026/3/27 4:16:26

一、yolo v1是什么？
YOLO（You Only Look Once）算法是一种目标检测算法，是经典的one-stage方法。YOLO v1 开创了单阶段目标检测的先河，其简洁的架构和高效的推理为后续版本奠定了基础。尽管存在小目标检测和定位精度的局限性，但其“端到端”的设计思想深刻影响了目标检测领域的发展。

二、核心思想
将一幅图像分成SxS个网格(grid cell)，如果某个object的中心落在这个网格中，则这个网格就负责预测这个object。

三、yolo v1的网络架构
1.网络架构
网络结构借鉴了 GoogLeNet 。24个卷积层，2个全链接层。（用1×1 reduction layers 紧跟 3×3 convolutional layers 取代Goolenet的 inception modules ）

从上面的网络结构中发现经历多次卷积以及两次全连接后神经元的个数为1x1470，经过reshape后刚好变为7x7x30,7×7意味着7×7个grid cell，30表示每个grid cell包含30个信息，其中2个预测框(yolo-v1模型是有两个预测框的)，每个预测框包含5个信息(x y w h c)，分别为中心点位置坐标，宽高以及置信度（confidence），剩下20个是针对数据集的20个种类的预测概率(即假设该grid cell负责预测物体，那么它是某个类别的概率)。

每个grid有30维，这30维中，8维是回归box的坐标，2个B是box的confidence，还有20维是类别。其中坐标的x,y（相对于网格单元格边界的框的中心）用对应网格的归一化到0-1之间，w,h用图像的width和height归一化到0-1之间。每个预测框的中心位置坐标是不同的。

2.置信度（confidence）
置信度(confidence)=类概率*IoU

表示某个预测框中存在目标的可能性大小，是一个介于 0 到 1 之间的数值。例如，一个预测框的目标存在置信度为 0.8，意味着模型有 80% 的把握认为该预测框中包含一个目标。

1)类概率
该网格是否包含目标（0 或 1）；

2）IoU
预测框与真实框的交并比。

四、损失函数
YOLO-V1算法最后输出的检测结果为7x7x30的形式，其中30个值分别包括两个候选框的位置和有无包含物体的置信度以及网格中包含20个物体类别的概率。那么YOLO的损失就包括三部分：位置误差，confidence误差，分类误差。
损失函数的设计目标就是让坐标(x,y,w,h)，confidence，classification这个三个方面达到很好的平衡。

1.定位误差
1）中心点定位误差

：输入图像被划分为 S×S 个网格（YOLOv1 中 S=7）

：每个网格预测 B个边界框（YOLOv1 中 B=2）

：指示函数，表示第 i个网格的第 j个预测框是否负责预测这个物体

判断标准：该预测框与真实框的 IoU 最大

:真实框的中心点坐标（相对于当前网格的偏移，归一化到 0~1）

:预测框的中心点坐标

:定位误差的权重系数（YOLOv1 中设为 5，为了加大定位误差的惩罚）

2)宽高定位误差

:真实框的宽度和高度（相对于整张图像归一化）

:预测框的宽度和高度

为什么要用平方根？

为了平衡大框和小框的误差影响

同样的绝对误差，对小框的影响更大，开方后可以减小这种偏差

2.置信度误差
1)包含物体的置信度误差

这一项只计算负责预测物体的那个框

2)不包含物体的置信度误差

3.类别预测误差

注意：这里的求和只对包含物体的网格进行，并且只对负责预测的框进行

五、yolo v1中的非极大值抑制（NMS）

非极大值抑制（Non-Maximum Suppression, NMS）是目标检测中用于消除冗余检测框的后处理算法，其核心思想是：
在重叠区域中，仅保留置信度最高的检测框，抑制其他同类别且重叠度高的低置信度框，从而避免对同一物体多次重复检测。

1、核心步骤
(1)按置信度排序：对所有预测框按置信度（confidence score）从高到低排序。

(2)选取最高分框：将当前最高置信度的框作为保留结果。

(3)抑制重叠框：计算该框与剩余框的交并比（IoU），若IoU超过设定阈值（如0.5），则视为冗余框并剔除。

(4)循环迭代：对剩余未处理的框重复步骤2-3，直到所有框被处理。

2、关键作用
解决重复检测：模型可能对同一物体预测多个重叠框，NMS保留最优结果。

提升输出质量：减少假阳性（False Positive），使检测结果更简洁、准确。

平衡精度与召回率：通过调整IoU阈值，控制检测框的严格程度（阈值越高，保留框越少）。

六、yolo v1的优缺点
1、优点
速度快，简单

2、缺点
1）每个cell只预测1个类别，如果重叠无法解决

2）小物体检测效果一般，长宽比可选，但单一。