【YOLO全系列架构演进史】8 YOLOv1-v3:从网格预测到Anchor机制的奠基
1. 总体定位与阅读导航
1.1.1.1 这篇文章要解决什么问题
我们打开一篇目标检测论文时,经常遇到这样的困境:公式看了三遍,代码跑了一遍,但问起"为什么这样设计"时却语塞。YOLO系列从v1到v3的演进,表面是网络变深、精度提升,内核却是一次次对"检测任务本质"的重新理解。
这篇文章不罗列超参数,不复制论文原文。我们要做的是:把三个版本的差异还原成设计决策的因果链。为什么v1用全卷积网格?为什么v2突然引入Anchor?为什么v3要在三个尺度上并行预测?每一步都不是偶然,而是前一个版本暴露的结构性缺陷在倒逼变革。
1.1.1.2 阅读路径与前置知识
现在我们已经了解了目标,接下来看看需要准备什么。你不需要读过原论文,但最好知道:卷积神经网络的基本运算(卷积、池化、全连接)、反向传播的概念、以及目标检测中"分类"与"定位"这两个子任务的区别。
如果画成图会是什么样子?我们的认知路径像一条单向流动的管道:先建立v1的基准世界观,然后观察它的裂缝,再理解v2如何用Anchor填补裂缝,最后看v3如何用多尺度缝合剩余的盲区。每一步都有闭环——我们会反复问:这在训练中意味着什么?在实际推理中又意味着什么?
2. YOLOv1:把检测变成回归问题
2.1.1.1 检测任务的困境:滑动窗口太慢了
在继续之前,让我们先回
