当前位置：首页 > news >正文

[YOLOv5] 从零解析：YOLO数据标签的格式规范与实战组织

news 2026/4/17 11:15:31

1. YOLOv5数据标签格式详解

第一次接触YOLOv5时，最让我困惑的就是这个神秘的数据标签格式。为什么要有五个数字？它们分别代表什么？为什么数值都在0到1之间？经过几个项目的实战，我终于搞明白了其中的门道。

YOLOv5使用的标签格式是class x_center y_center width height，这五个数值看起来简单，但每个都有其特殊含义。先说第一个数字class，它表示目标物体的类别编号。比如0代表人，1代表自行车，2代表汽车等等。这个编号需要从0开始连续递增，不能跳过任何数字。

后面四个数字x_center y_center width height描述的是目标框的位置和大小。这里有个关键点：所有数值都是相对于图片宽高的归一化值。也就是说，不管原始图片是1920x1080还是640x480，这些数值都在0到1之间。这种设计让YOLOv5可以处理不同尺寸的图片，而不需要调整标签值。

举个例子，假设图片尺寸是1000x800像素，某个目标的中心点坐标是(500,400)，宽度200像素，高度300像素。那么对应的标签值就是：

x_center = 500/1000 = 0.5
y_center = 400/800 = 0.5
width = 200/1000 = 0.2
height = 300/800 = 0.375

这种归一化处理在实际项目中特别实用。我做过一个项目需要同时处理手机拍摄的竖屏图片和监控摄像头的横屏图片，正是得益于这种归一化设计，不同比例的图片可以直接混在一起训练。

2. 数据标注工具实战指南

刚开始做目标检测项目时，我试过好几种标注工具，最后发现LabelImg和CVAT是最适合YOLOv5的。LabelImg简单易用，特别适合新手；CVAT功能更强大，适合团队协作。下面我详细说说使用LabelImg标注的步骤。

安装LabelImg很简单，用pip就能搞定：

pip install labelImg labelImg

打开软件后，首先要设置标注格式为YOLO。点击"View"菜单，勾选"Auto Save"和"Advanced Mode"，然后在"Format"中选择"YOLO"。这样保存的标注文件就会自动生成.txt格式的YOLOv5标签。

标注过程中有几个容易踩坑的地方：

标注框要尽量紧贴目标边缘，但不要超出目标范围。我刚开始标注时总喜欢留点空隙，结果模型训练时也学会了这种"宽松"的检测方式。
对于被遮挡的目标，要按可见部分标注。曾经有个项目标注了被遮挡车辆的完整轮廓，导致模型总是过度预测被遮挡区域。
小目标的标注要特别仔细。建议放大图片后再标注，否则几个像素的偏差对小目标影响很大。

标注完成后，每个图片会生成一个同名的.txt文件。打开看看内容，应该是一行一个目标，每行五个数字，就是我们前面说的class x_center y_center width height格式。

3. 数据集目录结构规范

YOLOv5对数据集目录结构有严格要求，我第一次组织数据时就因为目录不对导致训练报错。正确的结构应该是这样的：

dataset/ ├── images/ │ ├── train/ │ │ ├── image1.jpg │ │ └── image2.jpg │ └── val/ │ ├── image3.jpg │ └── image4.jpg └── labels/ ├── train/ │ ├── image1.txt │ └── image2.txt └── val/ ├── image3.txt └── image4.txt

关键点在于images和labels两个目录要严格对应。每个图片文件在labels目录下要有同名的.txt标签文件。YOLOv5会根据图片路径自动查找对应的标签文件，这个机制非常智能，但前提是你的目录结构必须规范。

我建议在项目开始时就建立好这个目录结构。可以用这个Python脚本快速创建：

import os import shutil def create_yolo_dataset(src_images, dst_root): for split in ['train', 'val']: os.makedirs(f"{dst_root}/images/{split}", exist_ok=True) os.makedirs(f"{dst_root}/labels/{split}", exist_ok=True) # 这里添加你的图片复制和分割逻辑 # shutil.copy(...)

4. 数据集配置文件编写

YOLOv5训练时需要个dataset.yaml文件，这个文件告诉模型去哪找训练数据和验证数据。我第一次写这个配置文件时犯了不少错误，现在总结下正确写法。

一个完整的dataset.yaml应该包含这些内容：

# 训练和验证图片路径 train: ../dataset/images/train val: ../dataset/images/val # 类别数量 nc: 3 # 类别名称 names: ['person', 'car', 'dog']

这里有几个注意事项：

路径可以是相对路径或绝对路径，但建议用相对路径，这样项目迁移更方便。
类别名称列表的顺序必须和标注时的class编号一致。比如标注时人=0，车=1，狗=2，那么names列表也必须按这个顺序。
如果数据集有测试集，可以添加test字段，但这不是必须的。

我习惯在项目根目录下创建data/文件夹，把dataset.yaml放里面。这样训练时直接指定这个文件就行：

python train.py --data data/dataset.yaml

5. 数据增强与预处理

YOLOv5内置了强大的数据增强功能，但要想发挥最大效果，还得配合适当的数据预处理。经过多次实验，我发现这几个预处理步骤特别重要：

首先是图片尺寸统一化。虽然YOLOv5能处理不同尺寸的图片，但统一尺寸能提高训练效率。建议把所有图片缩放到相同宽高比，比如640x640。可以用这个Python代码批量处理：

from PIL import Image def resize_image(img_path, output_size=(640,640)): img = Image.open(img_path) img = img.resize(output_size, Image.BILINEAR) img.save(img_path)

其次是数据平衡。如果某些类别样本太少，模型会偏向多数类。我常用的解决办法是：

对少数类图片进行复制
对这些图片应用更强的数据增强
在dataset.yaml中使用class weights参数

最后是数据验证。训练前一定要检查标签是否正确，我写了个简单的验证脚本：

import cv2 import os def visualize_labels(img_dir, label_dir): for img_name in os.listdir(img_dir): img_path = os.path.join(img_dir, img_name) label_path = os.path.join(label_dir, os.path.splitext(img_name)[0]+'.txt') img = cv2.imread(img_path) h, w = img.shape[:2] with open(label_path) as f: for line in f: class_id, xc, yc, bw, bh = map(float, line.split()) # 转换回像素坐标 x1 = int((xc - bw/2) * w) y1 = int((yc - bh/2) * h) x2 = int((xc + bw/2) * w) y2 = int((yc + bh/2) * h) cv2.rectangle(img, (x1,y1), (x2,y2), (0,255,0), 2) cv2.imshow('Label Check', img) cv2.waitKey(0)