当前位置：首页 > news >正文

从DOTA v1.0到v2.0：手把手教你用YOLOv8训练自己的遥感目标检测模型

news 2026/7/15 2:29:03

从DOTA v1.0到v2.0：手把手教你用YOLOv8训练自己的遥感目标检测模型

遥感图像目标检测在农业监测、城市规划、灾害评估等领域有着广泛应用。DOTA数据集作为该领域的标杆性数据集，其多版本迭代和丰富的标注信息为研究者提供了宝贵资源。本文将带您从零开始，使用当前最先进的YOLOv8框架，构建一个完整的遥感目标检测工作流。

1. DOTA数据集深度解析

DOTA（Dataset for Object deTection in Aerial images）是当前最全面的航空图像目标检测数据集之一。让我们先了解其三个主要版本的核心差异：

版本	类别数量	新增类别	图像分辨率	标注特点
v1.0	15	基础类别（飞机、船舶等）	4000×4000	旋转框标注
v1.5	16	新增container crane	4000×4000	优化了部分标注质量
v2.0	18	新增airport和helipad	多种分辨率	包含更复杂场景

数据集获取建议：

官方下载地址：https://captain-whu.github.io/DOTA/dataset.html
GitHub镜像（含v2.0备份）：https://github.com/zstar1003/Dataset

注意：下载后建议检查文件完整性，特别是v2.0版本由于包含多种分辨率图像，需要特别关注标注文件与图像的对应关系。

2. 环境配置与数据准备

2.1 基础环境搭建

YOLOv8对硬件要求相对友好，以下是推荐的配置方案：

# 创建conda环境（Python3.8+） conda create -n yolo_dota python=3.8 conda activate yolo_dota # 安装PyTorch（根据CUDA版本选择） pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118 # 安装Ultralytics YOLOv8 pip install ultralytics

2.2 数据格式转换

DOTA使用旋转框标注（每对象8个坐标点），而标准YOLOv8使用水平框。我们有三种处理方案：

旋转框转水平框（简单但会损失信息）

def rotated_to_horizontal(points): x_coords = [points[i] for i in range(0, 8, 2)] y_coords = [points[i+1] for i in range(0, 8, 2)] x_min, x_max = min(x_coords), max(x_coords) y_min, y_max = min(y_coords), max(y_coords) return [x_min, y_min, x_max, y_max]

使用支持旋转框的YOLO变种（推荐）
- YOLOv8-OBB：https://github.com/ultralytics/ultralytics/issues/2335
- 安装命令：pip install git+https://github.com/ultralytics/ultralytics.git@obb
数据增强策略（提升模型鲁棒性）
- 随机旋转（-15°到15°）
- 亮度/对比度调整
- 高斯噪声添加

3. YOLOv8模型训练实战

3.1 配置文件准备

创建dota.yaml配置文件：

path: /path/to/dota_dataset train: images/train val: images/val test: images/test names: 0: plane 1: ship 2: storage-tank ... # 完整类别列表

3.2 启动训练

对于标准YOLOv8（水平框）：

yolo detect train data=dota.yaml model=yolov8s.pt epochs=100 imgsz=1024

对于旋转框版本：

yolo obb train data=dota.yaml model=yolov8s-obb.pt epochs=100 imgsz=1024

关键参数解析：

imgsz: 建议1024-1600之间，平衡精度和显存消耗
batch: 根据GPU显存调整（8G显存建议batch=4）
optimizer: 可尝试AdamW或SGD+momentum

3.3 训练监控与调优

使用TensorBoard监控训练过程：

tensorboard --logdir runs/detect

常见问题解决方案：

显存不足：减小batch或imgsz，启用梯度累积
```
yolo detect train ... batch=4 accumulate=2
```

类别不平衡：启用类别权重

# 在dota.yaml中添加 weights: [1.0, 0.8, 1.2, ...] # 对应类别权重

过拟合：增加数据增强

yolo detect train ... hsv_h=0.015 hsv_s=0.7 hsv_v=0.4 degrees=15

4. 模型评估与部署

4.1 性能评估指标

DOTA官方评估使用mAP@0.5:0.95，但实践中可关注：

指标	说明	达标参考值
mAP@0.5	IoU阈值0.5时的平均精度	>0.65
mAP@0.5:0.95	IoU阈值0.5到0.95的平均精度	>0.4
AR@100	每图100个提案时的平均召回率	>0.55

运行评估命令：

yolo val model=runs/detect/train/weights/best.pt data=dota.yaml

4.2 模型导出与部署

导出为ONNX格式（适合TensorRT加速）：

yolo export model=best.pt format=onnx imgsz=1024

部署示例代码（使用OpenCV）：

import cv2 from ultralytics import YOLO model = YOLO('best.onnx') results = model.predict('test.jpg', imgsz=1024) # 可视化结果 for box in results[0].boxes: if box.conf > 0.5: # 置信度阈值 xyxy = box.xyxy[0].tolist() cv2.rectangle(img, (int(xyxy[0]), int(xyxy[1])), (int(xyxy[2]), int(xyxy[3])), (0,255,0), 2)

5. 进阶优化策略

5.1 模型架构调整

YOLOv8提供多种预训练模型选择：

模型	参数量(M)	mAP@0.5	推理速度(ms)	适用场景
yolov8n	3.2	0.58	6.8	边缘设备
yolov8s	11.2	0.63	8.4	平衡型
yolov8m	25.9	0.67	12.3	服务器部署
yolov8l	43.7	0.69	15.6	高精度要求
yolov8x	68.2	0.70	18.9	研究级应用

5.2 自定义数据增强

在data.yaml中添加增强配置：

augment: hsv_h: 0.015 # 色调变化幅度 hsv_s: 0.7 # 饱和度变化幅度 hsv_v: 0.4 # 明度变化幅度 degrees: 15 # 旋转角度范围 translate: 0.1 # 平移比例 scale: 0.5 # 缩放幅度 shear: 0.0 # 剪切幅度 perspective: 0.0005 # 透视变换

5.3 模型量化加速

使用TensorRT进行FP16量化：

from torch2trt import torch2trt model = YOLO('best.pt').model.cuda() data = torch.randn(1, 3, 1024, 1024).cuda() model_trt = torch2trt(model, [data], fp16_mode=True)

在实际项目中，我们通常会先使用yolov8s进行快速原型验证，再根据实际需求升级到更大模型。值得注意的是，DOTA v2.0由于包含更复杂场景，建议至少使用yolov8m以上规模的模型。

查看全文

http://www.jsqmd.com/news/678386/