当前位置：首页 > news >正文

用YOLOv4训练自己的数据集？从标注到模型部署，这份Win10实战指南全了（附VOC格式转换脚本）

news 2026/8/3 8:47:27

YOLOv4实战：从零构建Windows10下的自定义目标检测系统

如果你正在寻找一种高效的方法来训练自己的目标检测模型，YOLOv4无疑是一个强大的选择。不同于通用模型，针对特定场景（如工业质检、安防监控）定制化的检测系统往往能带来更精准的结果。本文将带你完整走过从数据准备到模型部署的全流程，特别针对Windows10环境优化操作步骤。

1. 数据准备：构建高质量训练集

任何成功的机器学习项目都始于优质数据。对于目标检测任务，我们需要同时准备图像和对应的标注文件。

1.1 图像采集与整理

首先将所有原始图像统一存放在JPEGImages文件夹中。建议遵循以下规范：

图像格式统一为JPEG或PNG
分辨率建议在416x416到1024x1024之间
命名采用连续数字或有意义的前缀（如product_001.jpg）

提示：图像数量建议至少每个类别200-300张，复杂场景需要更多样本。

1.2 使用LabelImg进行标注

LabelImg是最常用的标注工具之一。安装后按如下步骤操作：

pip install labelImg labelImg # 启动图形界面

标注时注意：

使用Pascal VOC格式输出XML文件
确保边界框紧密贴合目标边缘
对遮挡、模糊目标也需标注

标注完成后，所有XML文件应存放在Annotations目录，结构如下：

VOCdevkit/ └── VOC2020/ ├── Annotations/ ├── ImageSets/ │ └── Main/ ├── JPEGImages/ └── labels/

2. 数据格式转换与预处理

YOLOv4需要特定的文本格式标注，我们需要将VOC XML转换为YOLO格式。

2.1 修改voc_label.py脚本

以下是关键的Python脚本，用于格式转换：

import xml.etree.ElementTree as ET import os classes = ["安全帽", "反光衣", "工人"] # 替换为你的类别 def convert(size, box): dw = 1./size[0] dh = 1./size[1] x = (box[0] + box[1])/2.0 y = (box[2] + box[3])/2.0 w = box[1] - box[0] h = box[3] - box[2] x = x*dw w = w*dw y = y*dh h = h*dh return (x,y,w,h) def convert_annotation(image_id): in_file = open(f'VOCdevkit/VOC2020/Annotations/{image_id}.xml') out_file = open(f'VOCdevkit/VOC2020/labels/{image_id}.txt', 'w') tree = ET.parse(in_file) root = tree.getroot() size = root.find('size') w = int(size.find('width').text) h = int(size.find('height').text) for obj in root.iter('object'): cls = obj.find('name').text if cls not in classes: continue cls_id = classes.index(cls) xmlbox = obj.find('bndbox') b = (float(xmlbox.find('xmin').text), float(xmlbox.find('xmax').text), float(xmlbox.find('ymin').text), float(xmlbox.find('ymax').text)) bb = convert((w,h), b) out_file.write(f"{cls_id} {' '.join([str(a) for a in bb])}\n")

2.2 数据集划分

使用以下脚本将数据划分为训练集和测试集：

import os import random image_files = os.listdir('VOCdevkit/VOC2020/JPEGImages') random.shuffle(image_files) split = int(0.8 * len(image_files)) # 80%训练，20%测试 with open('VOCdevkit/VOC2020/ImageSets/Main/train.txt', 'w') as f: for img in image_files[:split]: f.write(os.path.splitext(img)[0] + '\n') with open('VOCdevkit/VOC2020/ImageSets/Main/test.txt', 'w') as f: for img in image_files[split:]: f.write(os.path.splitext(img)[0] + '\n')

3. 配置文件定制

YOLOv4的性能很大程度上取决于配置文件的正确设置。

3.1 关键配置文件

创建obj.data文件：

classes = 3 # 你的类别数 train = data/train.txt valid = data/test.txt names = data/obj.names backup = backup/

obj.names文件示例：

安全帽 反光衣 工人

3.2 修改yolov4.cfg

主要调整以下参数：

参数	计算公式	示例值(3类)
max_batches	classes*2000	6000
steps	max_batches0.8, max_batches0.9	4800,5400
filters	(classes+5)*3	24
classes	你的类别数	3

在配置文件中搜索[yolo]和其前的[convolutional]层进行相应修改。

4. 模型训练与优化

4.1 启动训练

使用预训练权重可以加速收敛：

darknet.exe detector train data/obj.data cfg/yolov4-obj.cfg yolov4.conv.137 -map

关键训练参数说明：

-map：启用mAP计算
-dont_show：无图形界面时使用
-clear：清除之前的训练状态

4.2 训练监控

YOLOv4会在控制台输出实时指标：

Region 82 Avg IOU: 0.798235, Class: 0.893456, Obj: 0.701234, No Obj: 0.004567, .5R: 0.956789, .75R: 0.789012, count: 8

重点关注：

Avg IOU：预测框与真实框的平均交并比，>0.5为可接受
.5R：IOU阈值0.5时的召回率

4.3 常见问题解决

遇到问题时检查：

Loss不下降：
- 学习率是否合适（默认0.001）
- 标注是否正确
- 数据量是否足够
显存不足：
- 减小batch和subdivisions
- 降低输入分辨率
过拟合：
- 增加数据增强
- 使用更小的模型

5. 模型测试与部署

5.1 单张图像测试

darknet.exe detector test data/obj.data cfg/yolov4-obj.cfg backup/yolov4-obj_final.weights test.jpg

5.2 评估模型性能

计算mAP：

darknet.exe detector map data/obj.data cfg/yolov4-obj.cfg backup/yolov4-obj_final.weights

5.3 转换为其他格式

如需部署到其他平台，可转换为ONNX或TensorRT格式：

import darknet darknet.convert_to_onnx( config_file="cfg/yolov4-obj.cfg", weights_file="backup/yolov4-obj_final.weights", output_file="yolov4-obj.onnx" )