当前位置：首页 > news >正文

LabelMe标注结果统计分析：类别分布与质量报告生成

news 2026/3/26 21:21:30

LabelMe标注结果统计分析：类别分布与质量报告生成

【免费下载链接】labelmeImage Polygonal Annotation with Python (polygon, rectangle, circle, line, point and image-level flag annotation).项目地址: https://gitcode.com/gh_mirrors/lab/labelme

LabelMe是一款强大的图像多边形标注工具，支持多边形、矩形、圆形、线条、点和图像级标志标注。对于机器学习和计算机视觉项目而言，标注数据的质量和类别分布直接影响模型训练效果。本文将详细介绍如何利用LabelMe的标注结果进行统计分析，生成类别分布报告和质量评估报告，帮助你全面掌握标注数据情况。

为什么需要标注结果统计分析？

在计算机视觉项目中，标注数据是模型训练的基础。通过对LabelMe标注结果进行统计分析，你可以：

了解数据集中各类别的分布情况，避免类别不平衡问题
评估标注质量，发现可能存在的标注错误或不一致
为模型训练提供数据支持，优化训练策略
向团队或客户展示数据集概况，促进沟通和决策

LabelMe标注数据格式解析

LabelMe的标注结果以JSON格式存储，包含图像信息、标注形状、标签等关键数据。典型的LabelMe JSON文件结构如下：

{ "version": "4.5.6", "flags": {}, "shapes": [ { "label": "person", "points": [[x1, y1], [x2, y2], ...], "group_id": null, "shape_type": "polygon", "flags": {} }, ... ], "imagePath": "image.jpg", "imageData": "...", "imageHeight": 480, "imageWidth": 640 }

其中，"shapes"数组包含了所有标注对象的信息，每个对象包含标签（label）、坐标点（points）和形状类型（shape_type）等重要数据。

LabelMe标注界面展示了多边形标注工具的使用，用户可以手动绘制多边形来标注图像中的对象。

类别分布统计分析方法

单文件标注统计

要统计单个标注文件的类别分布，可以解析JSON文件中的"shapes"数组，统计每个标签出现的次数。以下是一个简单的Python代码示例：

import json def count_labels(json_file): with open(json_file, 'r') as f: data = json.load(f) label_counts = {} for shape in data['shapes']: label = shape['label'] if label in label_counts: label_counts[label] += 1 else: label_counts[label] = 1 return label_counts # 使用示例 # counts = count_labels('annotation.json') # print(counts)

批量标注文件统计

对于包含多个标注文件的数据集，可以使用LabelMe提供的转换工具来生成汇总统计。例如，使用labelme2voc.py工具将标注文件转换为VOC格式，同时生成类别统计信息：

python examples/bbox_detection/labelme2voc.py data_annotated data_dataset_voc --labels labels.txt

此命令会将data_annotated目录中的标注文件转换为VOC格式，并在data_dataset_voc目录中生成class_names.txt文件，包含所有类别的列表。

可视化类别分布

通过生成类别分布图表，可以更直观地了解数据集中各类别的占比情况。以下是使用matplotlib库绘制饼图的示例代码：

import matplotlib.pyplot as plt def plot_label_distribution(label_counts): labels = list(label_counts.keys()) sizes = list(label_counts.values()) plt.figure(figsize=(10, 6)) plt.pie(sizes, labels=labels, autopct='%1.1f%%', startangle=90) plt.axis('equal') plt.title('Label Distribution') plt.show() # 使用示例 # plot_label_distribution(counts)

质量报告生成

标注质量评估指标

评估标注质量可以从以下几个方面入手：

标注完整性：检查是否所有关键对象都被标注
标注准确性：评估标注边界与对象实际边界的吻合程度
标注一致性：检查不同标注者或同一标注者在不同时间的标注风格是否一致
标注规范性：检查是否遵循了预设的标注规范

利用可视化评估标注质量

LabelMe提供了将标注结果可视化的工具，可以帮助你直观地检查标注质量。例如，使用labelme_json_to_dataset命令可以将JSON标注文件转换为可视化图像：

labelme_json_to_dataset annotation.json -o annotation_dataset

此命令会生成包含原始图像、标注掩码和可视化结果的目录。通过查看生成的label_viz.png文件，可以检查标注是否准确。

标注可视化结果展示了不同类别的对象被标记为不同颜色，便于检查标注的准确性和完整性。

生成质量报告

结合类别分布统计和质量评估结果，可以生成一份全面的质量报告。报告应包含以下内容：

数据集概况：图像数量、总标注数量等基本信息
类别分布统计：各类别数量及占比图表
质量评估结果：标注完整性、准确性、一致性和规范性的评估
问题与建议：发现的问题及改进建议

高级应用：自动化统计分析脚本

为了提高效率，可以编写自动化脚本批量处理标注文件，生成统计分析结果和质量报告。以下是一个简单的脚本框架：

import os import json import glob import matplotlib.pyplot as plt def batch_analyze_annotations(input_dir): all_label_counts = {} json_files = glob.glob(os.path.join(input_dir, '*.json')) for json_file in json_files: with open(json_file, 'r') as f: data = json.load(f) for shape in data['shapes']: label = shape['label'] if label in all_label_counts: all_label_counts[label] += 1 else: all_label_counts[label] = 1 # 生成类别分布图表 plot_label_distribution(all_label_counts) # 生成统计报告 generate_report(all_label_counts, len(json_files)) def generate_report(label_counts, num_files): with open('annotation_report.txt', 'w') as f: f.write(f'Annotation Quality Report\n') f.write(f'========================\n') f.write(f'Total files: {num_files}\n') f.write(f'Total annotations: {sum(label_counts.values())}\n') f.write('\nLabel distribution:\n') for label, count in sorted(label_counts.items()): f.write(f' {label}: {count} ({count/sum(label_counts.values()):.2%})\n') # 使用示例 # batch_analyze_annotations('data_annotated')