当前位置：首页 > news >正文

YOLOv5网络结构拆解：从608x608输入到三个特征图输出，新手也能看懂的模型数据流图解

news 2026/5/12 10:42:18

YOLOv5数据流全景图解：从像素输入到检测框输出的可视化之旅

当你第一次打开YOLOv5的配置文件时，那些密密麻麻的数字和参数是否让你望而生畏？别担心，我们今天要做的不是逐行解析代码，而是像拆解乐高积木一样，用最直观的方式展示一张图片如何在YOLOv5中"流动"。想象一下，你的输入图像就像一块黄油，而YOLOv5则是一把热刀——它会将这块黄油切成不同大小的网格，每个网格都会告诉我们："这里可能有只猫"或者"那里停了辆车"。

1. 输入图像的"数字化妆术"

任何图像进入YOLOv5之前，都要经过一系列标准化处理。以经典的608x608输入为例，这个过程就像给图像做"数字化妆"——不是为了让它们更好看，而是为了让神经网络更容易识别特征。

假设你有一张1920x1080的生活照，YOLOv5会先将其等比例缩放至最长边608像素（保持宽高比），然后在较短的边用灰色像素（114值）填充至608像素。这种处理方式被称为"letterbox"，就像老式电视机播放宽屏电影时的黑边效果。

提示：为什么选择608这个看似奇怪的数字？因为它能被32整除，这与网络的下采样机制密切相关。

图像完成预处理后，会被转换为一个形状为[3, 608, 608]的张量（Tensor）。这个数字魔术意味着：

3：RGB三个颜色通道
608：高度（像素）
608：宽度（像素）

# 典型的YOLOv5预处理代码示例 def preprocess_image(image, target_size=608): # 等比例缩放 h, w = image.shape[:2] scale = min(target_size / h, target_size / w) new_h, new_w = int(h * scale), int(w * scale) # 使用双线性插值缩放图像 resized = cv2.resize(image, (new_w, new_h), interpolation=cv2.INTER_LINEAR) # 创建目标尺寸画布并用(114,114,114)填充 canvas = np.full((target_size, target_size, 3), 114, dtype=np.uint8) # 将缩放后的图像放置在画布中心 top = (target_size - new_h) // 2 left = (target_size - new_w) // 2 canvas[top:top+new_h, left:left+new_w] = resized # 转换通道顺序并归一化 canvas = canvas.transpose(2, 0, 1) # HWC to CHW canvas = canvas / 255.0 # 归一化到0-1范围 return canvas

2. 特征金字塔：图像的三重分身术

YOLOv5最精妙的设计之一就是它能够同时在不同尺度上检测物体。想象你站在不同高度观察同一个场景：从飞机上看，你能发现高速公路；从直升机上看，能看到汽车；从无人机上看，能识别出行人。YOLOv5通过三个特征图实现了类似的"多尺度观察"。

2.1 下采样的数学魔术

原始图像经过网络时会经历多次下采样（可以理解为"压缩"），每次下采样都会使图像尺寸减半。YOLOv5使用三种不同下采样倍率的特征图：

下采样倍数	特征图尺寸	适合检测的物体大小
8倍	76x76	小物体（如手机、鸟类）
16倍	38x38	中等物体（如行人、汽车）
32倍	19x19	大物体（如公交车、建筑物）

这个下采样过程就像是用不同网眼的筛子过滤图像信息：

第一层筛子（8倍下采样）：网眼最细，保留最多细节，适合捕捉小物体
第二层筛子（16倍下采样）：中等网眼，平衡细节与上下文
第三层筛子（32倍下采样）：网眼最大，捕捉整体场景中的大物体

2.2 特征图与原图的对应关系

理解特征图上每个点对应原始图像的哪个区域至关重要。以32倍下采样的19x19特征图为例：

每个特征图格子对应原始图像上32x32像素的区域（因为608/19≈32）
中心点坐标可以通过公式计算：(x*stride + stride/2, y*stride + stride/2)

# 计算特征图格子在原图中的对应区域 def get_receptive_field(feature_x, feature_y, stride=32): """计算特征图位置对应的原始图像区域""" top_left_x = feature_x * stride top_left_y = feature_y * stride bottom_right_x = (feature_x + 1) * stride bottom_right_y = (feature_y + 1) * stride return (top_left_x, top_left_y, bottom_right_x, bottom_right_y)

3. 解码预测：从数字到检测框

YOLOv5的三个特征图输出的不是直接的边界框，而是一组需要解码的预测参数。每个特征图格子预测多个候选框（anchor boxes），每个预测包含：

中心点偏移量（tx, ty）：相对于当前格子中心的微调
宽高缩放量（tw, th）：相对于预设anchor尺寸的调整
置信度：包含物体的概率
类别概率：物体属于各个类别的可能性

解码过程可以简化为以下步骤：

将中心点偏移量通过sigmoid函数约束到0-1范围
将宽高缩放量通过指数函数转换
结合预设的anchor尺寸计算最终边界框

def decode_prediction(pred, anchors, stride): """ pred: [batch_size, num_anchors, height, width, 5+num_classes] anchors: 预设的anchor尺寸 stride: 当前特征图的下采样倍数 """ # 应用sigmoid到中心点预测 pred[..., 0:2] = torch.sigmoid(pred[..., 0:2]) # 应用sigmoid到置信度和类别预测 pred[..., 4:] = torch.sigmoid(pred[..., 4:]) # 计算实际边界框 grid_size = pred.shape[2:4] grid_y, grid_x = torch.meshgrid(torch.arange(grid_size[0]), torch.arange(grid_size[1])) # 转换为与pred相同的设备 grid_x = grid_x.to(pred.device) grid_y = grid_y.to(pred.device) # 计算中心点坐标 pred[..., 0] = (pred[..., 0] + grid_x.unsqueeze(0).unsqueeze(-1)) * stride pred[..., 1] = (pred[..., 1] + grid_y.unsqueeze(0).unsqueeze(-1)) * stride # 计算宽高 anchors = anchors.to(pred.device) pred[..., 2:4] = torch.exp(pred[..., 2:4]) * anchors return pred

4. 输入尺寸的32倍之谜

你可能注意到YOLOv5的官方文档总是强调输入尺寸必须是32的倍数（如320、416、608、640等）。这不是随意选择，而是由网络结构决定的硬性要求。

4.1 为什么是32？

这个数字来源于YOLOv5的最大下采样倍数。网络通过5次2倍下采样（2^5=32）将输入图像压缩到最小特征图。如果输入尺寸不是32的倍数，就会在某个下采样步骤出现半像素的情况，导致特征图尺寸出现小数，这是无法处理的。

4.2 不同输入尺寸的影响

虽然YOLOv5可以接受多种32倍数的输入尺寸，但不同选择会影响检测效果：

输入尺寸	计算量	检测小物体能力	显存占用	适用场景
320x320	最低	较弱	最小	移动端、实时性要求极高
416x416	中等	中等	中等	通用场景平衡选择
608x608	较高	较强	较高	需要检测小物体
640x640	最高	最强	最大	高精度检测任务

注意：更大的输入尺寸虽然能提升小物体检测能力，但同时会增加计算成本和显存占用，实际应用中需要权衡。

5. 数据流可视化实战

让我们用一个具体的例子串联整个数据流过程。假设我们有一张包含猫和狗的图片，输入尺寸为608x608。

输入阶段：
- 原始图像被缩放并填充为608x608
- 转换为[3, 608, 608]的张量
特征提取阶段：
- 图像经过Backbone网络（主要是卷积层）
- 产生三个特征图：
  - P3: 76x76（小物体特征）
  - P4: 38x38（中等物体特征）
  - P5: 19x19（大物体特征）
预测阶段：
- 每个特征图格子预测3个anchor boxes
- 对于76x76特征图，共预测76×76×3=17,328个候选框
- 对于38x38特征图，预测38×38×3=4,332个候选框
- 对于19x19特征图，预测19×19×3=1,083个候选框
后处理阶段：
- 使用非极大值抑制（NMS）过滤重叠框
- 保留置信度高于阈值的预测
- 将边界框坐标映射回原始图像空间

# 简化的YOLOv5推理流程 def yolo_inference(model, image, conf_thresh=0.25, iou_thresh=0.45): # 预处理 img_tensor = preprocess_image(image) # 推理 with torch.no_grad(): pred = model(img_tensor.unsqueeze(0)) # 后处理 detections = non_max_suppression( pred, conf_thresh, iou_thresh, multi_label=True ) # 将检测框映射回原始图像 scale = min(608 / image.shape[0], 608 / image.shape[1]) pad_x = (608 - image.shape[1] * scale) / 2 pad_y = (608 - image.shape[0] * scale) / 2 for det in detections: if det is not None and len(det): # 调整边界框坐标 det[:, [0, 2]] -= pad_x det[:, [1, 3]] -= pad_y det[:, :4] /= scale return detections

在实际项目中，我发现调整NMS参数对最终结果影响很大。特别是在拥挤场景中，适当降低iou_thresh可以避免漏检靠得很近的物体。而conf_thresh则需要在减少误检和避免漏检之间找到平衡点——通常从0.25开始尝试，根据验证集表现微调。

查看全文

http://www.jsqmd.com/news/801684/