当前位置：首页 > news >正文

从Demo到实战：手把手教你用OpenMMLab的MMDetection训练自己的第一个目标检测模型（附数据集制作）

news 2026/5/26 9:05:49

从零构建目标检测模型：OpenMMLab实战指南与数据集制作全流程

当你第一次成功运行OpenMMLab的Demo时，那种成就感可能很快会被新的困惑取代——如何让这套强大的工具识别你自己的数据？本文将带你跨越从"跑通示例"到"训练自定义模型"的关键鸿沟。不同于大多数教程停留在环境配置阶段，我们直接切入工业界最关心的实战环节：数据准备、模型训练与调优全流程。

1. 数据准备：构建高质量检测数据集

目标检测模型的性能上限往往由数据质量决定。在MMDetection框架中，支持COCO和VOC两种主流格式，我们以更灵活的COCO格式为例，详解数据集制作要点。

1.1 数据标注规范与工具选型

LabelImg和CVAT是两种常用的标注工具，但对于团队协作项目，推荐使用支持在线协作的CVAT。标注时需特别注意：

类别定义：采用树状结构组织类别（如vehicle/car,vehicle/truck）
标注密度：每个目标实例至少需要15-20个样本
负样本：保留5%不含目标的图像作为负样本

# 安装CVAT标注工具 docker-compose -f docker-compose.yml -f components/analytics/docker-compose.analytics.yml up -d

1.2 COCO格式深度解析

完整的COCO数据集包含以下核心JSON字段：

{ "images": [{"id": 1, "width": 800, "height": 600, "file_name": "001.jpg"}], "annotations": [{ "id": 1, "image_id": 1, "category_id": 1, "bbox": [x,y,width,height], "area": width*height, "iscrowd": 0 }], "categories": [{"id": 1, "name": "car"}] }

关键转换脚本示例（Pascal VOC转COCO）：

from xml.etree import ElementTree as ET import json def voc_to_coco(voc_ann_dir, output_path): coco = {"images": [], "annotations": [], "categories": []} # 实现细节省略... with open(output_path, 'w') as f: json.dump(coco, f)

注意：bbox格式为[x_top_left, y_top_left, width, height]，不是对角坐标

1.3 数据集划分策略

推荐的数据集划分比例：

数据子集	比例	用途
train	70%	模型训练
val	15%	超参调优
test	15%	最终评估

使用scikit-learn实现自动划分：

from sklearn.model_selection import train_test_split image_ids = list(annotations.keys()) train_ids, test_ids = train_test_split(image_ids, test_size=0.3) val_ids, test_ids = train_test_split(test_ids, test_size=0.5)

2. 模型配置：定制化训练方案

MMDetection采用模块化设计，通过配置文件组合不同组件。以Faster R-CNN为例，详解关键配置项。

2.1 基础配置继承机制

_base_ = [ '../_base_/models/faster_rcnn_r50_fpn.py', # 模型架构 '../_base_/datasets/coco_detection.py', # 数据加载 '../_base_/schedules/schedule_1x.py', # 训练策略 '../_base_/default_runtime.py' # 运行时配置 ]

通过继承机制可快速修改特定组件：

# 修改分类头类别数 model = dict( roi_head=dict( bbox_head=dict(num_classes=10)))

2.2 数据管道优化

标准数据处理流程包含以下阶段：

数据加载
随机增强（翻转、裁剪等）
归一化（均值/标准差调整）
格式转换（to tensor）

示例配置：

train_pipeline = [ dict(type='LoadImageFromFile'), dict(type='LoadAnnotations', with_bbox=True), dict(type='RandomFlip', flip_ratio=0.5), dict(type='Normalize', mean=[123.675, 116.28, 103.53], std=[58.395, 57.12, 57.375]), dict(type='Pad', size_divisor=32), dict(type='DefaultFormatBundle'), dict(type='Collect', keys=['img', 'gt_bboxes', 'gt_labels']) ]

2.3 训练策略调优

不同规模数据集的推荐配置：

数据量	学习率	Batch Size	训练轮次
<1k	0.002	2	20-30
1k-10k	0.01	8	40-60
>10k	0.02	16	80-120

学习率预热配置示例：

lr_config = dict( policy='step', warmup='linear', warmup_iters=500, warmup_ratio=0.001, step=[8, 11])

3. 模型训练与监控

3.1 分布式训练启动

单机多卡训练命令：

./tools/dist_train.sh configs/faster_rcnn_r50_fpn_1x_coco.py 4 --work-dir work_dirs/exp1

关键参数说明：

4：使用的GPU数量
--work-dir：日志和模型保存路径

3.2 训练过程监控

MMDetection集成多种可视化工具：

日志解析：

python tools/analysis_tools/analyze_logs.py plot_curve log.json --keys loss_cls loss_bbox --out losses.png

TensorBoard支持：

log_config = dict( interval=50, hooks=[ dict(type='TextLoggerHook'), dict(type='TensorboardLoggerHook') ])

验证集评估：

./tools/dist_test.sh configs/faster_rcnn_r50_fpn_1x_coco.py work_dirs/exp1/latest.pth 4 --eval bbox

3.3 常见问题排查

训练初期异常情况处理指南

现象	可能原因	解决方案
Loss值为NaN	学习率过高	降低10倍学习率
mAP始终为0	类别ID错误	检查annotations的category_id
显存溢出	Batch Size过大	减小batch_size或使用梯度累积

4. 模型部署与优化

4.1 模型导出与推理

将训练好的模型转换为ONNX格式：

from mmdet.apis import init_detector, export_model config_file = 'configs/faster_rcnn_r50_fpn_1x_coco.py' checkpoint_file = 'work_dirs/exp1/latest.pth' export_model(config_file, checkpoint_file, 'faster_rcnn.onnx')

Python推理API示例：

from mmdet.apis import init_detector, inference_detector model = init_detector('config.py', 'model.pth', device='cuda:0') result = inference_detector(model, 'test.jpg')

4.2 模型量化加速

使用TensorRT进行FP16量化：

from mmdet.apis import create_trt_model trt_model = create_trt_model( 'faster_rcnn.onnx', 'faster_rcnn.trt', fp16_mode=True, max_workspace_size=1 << 30)