当前位置：首页 > news >正文

从VOC到Qwen2-VL：手把手教你搞定RDD2022道路病害检测数据集转换（附完整代码）

news 2026/7/18 7:17:36

从VOC到Qwen2-VL：道路病害检测数据集转换实战指南

道路病害检测是智能交通系统中的关键环节，而多模态大模型的出现为这一领域带来了新的技术突破。本文将带您完成从传统VOC格式到Qwen2-VL适配格式的完整转换流程，特别针对RDD2022这类专业道路病害数据集。

1. 理解数据格式差异

在开始转换前，我们需要清楚两种格式的核心区别。VOC格式采用XML文件存储标注信息，每个图像对应一个XML文件，包含物体类别和边界框坐标。而Qwen2-VL需要的是一种结构化的JSON格式，将图像路径、用户指令和模型响应整合在一起。

关键差异对比：

特性	VOC格式	Qwen2-VL格式
存储方式	每个图像单独XML文件	所有数据集中在一个JSON文件
坐标表示	绝对像素值	归一化到0-1000范围的整数值
类别处理	多类别独立标注	针对特定类别的检测指令
附加信息	仅基础标注	包含用户指令和模型响应模板

2. 环境准备与数据检查

首先确保您的开发环境已配置以下组件：

# 基础依赖库 import xml.etree.ElementTree as ET import json import os import cv2 from pathlib import Path from typing import List, Dict, Union

数据目录结构检查：

确认原始数据集包含Annotations（XML文件）和JPEGImages（图像文件）两个文件夹
检查XML文件与图像文件的对应关系，确保没有缺失或命名不一致的情况

注意：RDD2022数据集中的坐标值可能存在浮点数，这与传统VOC数据集不同，需要在代码中特别处理。

3. XML解析与数据提取

核心任务是解析XML文件，提取出目标类别（如'pothole'）的边界框信息。我们创建一个安全的XML解析函数：

def safe_get_text(element: ET.Element, tag: str, default: str = "") -> str: """安全获取XML元素的文本内容""" target = element.find(tag) return target.text.strip() if (target is not None and target.text) else default

对于包含浮点坐标的情况，需要特别处理边界框解析：

def parse_coordinate(box: ET.Element) -> Dict[str, float]: """解析边界框坐标并验证有效性""" coords = {} for coord in ['xmin', 'ymin', 'xmax', 'ymax']: text = safe_get_text(box, coord, "0") try: coords[coord] = float(text) # 显式转换为浮点数 except ValueError: raise ValueError(f"无效坐标值: {coord}={text}") return coords

4. 坐标归一化处理

Qwen2-VL要求坐标归一化到0-1000范围，这需要根据图像尺寸进行转换：

def normalization(xmin: float, ymin: float, xmax: float, ymax: float, width: float, height: float) -> List[int]: """坐标归一化处理（支持浮点数输入）""" return [ int(round((xmin / width) * 1000)), # 使用round确保四舍五入 int(round((ymin / height) * 1000)), int(round((xmax / width) * 1000)), int(round((ymax / height) * 1000)) ]

提示：RDD2022中的网裂(D20)等病害可能非常细小，归一化后坐标值差异可能只有几个单位，这是正常现象。

5. 构建Qwen2-VL对话格式

Qwen2-VL采用类似对话的格式进行目标检测，我们需要构建用户指令和模型响应：

def generate_answer_content(boxes: List[List[int]]) -> str: """生成模型响应内容""" if not boxes: return "<answer>No Objects</answer>" items = [] for box in boxes: pos_str = f"[{box[0]}, {box[1]}, {box[2]}, {box[3]}]" items.append(f"{{'Position': {pos_str}, 'Confidence': 1}}") return f"<answer>[{', '.join(items)}]</answer>"

对应的用户指令需要明确检测任务：

user_content = f""" <image> Detect all objects belonging to the category '{target_class}' in the image, and provide the bounding boxes (between 0 and 1000, integer) and confidence (between 0 and 1, with two decimal places). If no object belonging to the category '{target_class}' in the image, return 'No Objects'. Output the thinking process in <think> </think> and final answer in <answer> </answer> tags. """

6. 批量转换与结果验证

最后实现批量转换函数，处理整个数据集：

def batch_convert_xml_to_json(input_dir: str, output_path: str, target_class: str): """批量转换XML文件夹为Qwen2-VL格式JSON""" valid_results = [] for filename in os.listdir(input_dir): if not filename.lower().endswith(".xml"): continue xml_path = os.path.join(input_dir, filename) if result := process_xml_file(xml_path, target_class): valid_results.append(result) # 保存JSON结果 with open(output_path, "w", encoding="utf-8") as f: json.dump(valid_results, f, indent=2, ensure_ascii=False) print(f"转换完成，有效文件数: {len(valid_results)}")

转换后的JSON结构示例：

{ "messages": [ { "role": "user", "content": "<image> Detect all objects..." }, { "role": "assistant", "content": "<answer>[{'Position': [123, 456, 789, 987], 'Confidence': 1}]</answer>" } ], "images": ["road_001.jpg"] }