当前位置：首页 > news >正文

用Python脚本快速整理PA100K数据集：按26个属性自动分类验证集图片

news 2026/6/20 0:35:41

用Python脚本快速整理PA100K数据集：按26个属性自动分类验证集图片

当你第一次打开PA100K数据集的压缩包时，面对近10万张行人图像和密密麻麻的标签文件，是否感到无从下手？作为计算机视觉领域常用的行人属性识别基准数据集，PA100K的26种属性标签既是其价值所在，也是新手面临的第一个挑战。本文将带你用Python脚本实现验证集图像的自动化分类整理，让杂乱的数据秒变结构化素材库。

1. 理解PA100K数据集的结构与价值

PA100K数据集包含10万张真实场景下的行人图像，每张图像都标注了26种属性标签。这些标签覆盖了从衣着特征（如短袖、长裤）到携带物品（背包、手提包）等丰富维度，是训练属性识别模型的黄金标准。原始数据集通常按训练集（80%）、验证集（10%）、测试集（10%）划分，但所有图像都混放在同一文件夹中，需要通过标签文件进行关联。

关键目录结构示例：

PA100K/ ├── images/ # 所有图像混合存放 │ ├── 000001.jpg │ └── ...(100000 files) ├── train_list.txt # 训练集文件名与标签 ├── val_list.txt # 验证集文件名与标签 └── test_list.txt # 测试集文件名与标签

标签文件每行的格式为图像路径\t标签1,标签2,...,标签26，其中1表示具有该属性。例如：

images/000001.jpg 1,0,1,0,0,0,0,0,0,0,0,1,0,0,1,0,0,1,0,0,1,0,0,1,0,0

2. 自动化分类脚本的核心设计

下面这个不足50行的Python脚本，能自动将验证集图像按属性分类到不同文件夹。我们先看完整代码，再逐模块解析：

import os import tqdm import shutil from pathlib import Path def ensure_dir(path): """确保目录存在，不存在则创建""" Path(path).mkdir(parents=True, exist_ok=True) def get_active_attributes(label_str): """解析标签字符串，返回激活属性的索引列表""" return [i for i, val in enumerate(label_str.split(',')) if val == '1'] def organize_by_attributes(): # 定义26个属性名称（与官方顺序一致） attributes = [ "Hat", "Glasses", "ShortSleeve", "LongSleeve", "UpperStride", "UpperLogo", "UpperPlaid", "UpperSplice", "LowerStripe", "LowerPattern", "LongCoat", "Trousers", "Shorts", "Skirt", "boots", "HandBag", "ShoulderBag", "Backpack", "HoldObjectsInFront", "AgeOver60", "Age18-60", "AgeLess18", "Female", "Front", "Side", "Back" ] # 路径配置 label_file = "./val_list.txt" img_source = "./images/" output_root = "./attribute_sorted/" # 创建属性分类目录 ensure_dir(output_root) for idx, attr in enumerate(attributes): ensure_dir(f"{output_root}{idx:02d}_{attr}") # 处理每张图像 with open(label_file) as f: for line in tqdm.tqdm(f, desc="Processing images"): img_relpath, labels = line.strip().split('\t') active_indices = get_active_attributes(labels) # 复制到每个激活属性对应的目录 img_name = os.path.basename(img_relpath) for idx in active_indices: dest_dir = f"{output_root}{idx:02d}_{attributes[idx]}" shutil.copy2( os.path.join(img_source, img_relpath), os.path.join(dest_dir, img_name) ) if __name__ == '__main__': organize_by_attributes()

2.1 关键技术点解析

路径处理现代化：
- 使用pathlib.Path替代传统的os.path，提供更面向对象的路径操作
- exist_ok=True参数避免重复创建目录时的错误检查
进度可视化：
- tqdm进度条直观显示处理进度，预估剩余时间
- desc参数自定义进度条描述文字
健壮性增强：
- 采用copy2()而非copyfile()，保留原始文件的元数据
- 统一的路径拼接方式避免跨平台兼容问题
命名规范化：
- 属性目录采用02d_前缀格式，确保排序正确性
- 使用os.path.basename安全提取文件名

3. 扩展应用与实战技巧

3.1 适配训练集处理

只需修改脚本中的label_file和img_source变量即可处理训练集：

label_file = "./train_list.txt" # 改为训练集标签文件 img_source = "./train_images/" # 训练集专属图像目录

提示：大规模数据集处理建议增加以下优化：
使用多进程加速（multiprocessing.Pool）
添加MD5校验防止文件损坏
实现断点续处理功能

3.2 处理常见错误场景

错误类型	解决方案	预防措施
文件不存在	捕获`FileNotFoundError`	预处理时校验文件完整性
权限不足	使用`try-catch`块处理	提前检查目录可写性
标签格式错误	添加正则校验	使用`assert len(labels)==26`

典型异常处理代码：

try: shutil.copy2(src, dst) except PermissionError: print(f"权限拒绝：{dst}") os.chmod(dst, 0o755) # 尝试修改权限 shutil.copy2(src, dst) # 重试

3.3 迁移到其他多标签数据集

该脚本框架可轻松适配以下数据集：

RAPv2数据集：修改属性列表和标签解析逻辑
Market-1501属性：调整目录结构处理方式
DeepFashion：适应分层标签体系

通用化改造示例：

def universal_organizer(label_file, attr_names, img_root): # 保持核心逻辑不变 # 只需自定义标签解析器 ...

4. 可视化分析与质量检查

分类完成后，建议运行以下检查脚本生成统计报告：

import pandas as pd from collections import Counter def analyze_distribution(output_root): counts = {} for attr_dir in os.listdir(output_root): attr = attr_dir.split('_', 1)[1] img_count = len(os.listdir(os.path.join(output_root, attr_dir))) counts[attr] = img_count df = pd.DataFrame.from_dict(counts, orient='index', columns=['Count']) df['Percentage'] = df['Count'] / df['Count'].sum() * 100 return df.sort_values('Count', ascending=False)

典型输出结果示例：

属性	图片数量	占比
Age18-60	8765	87.65%
Trousers	6542	65.42%
Front	6211	62.11%
...	...	...

这种分析能帮助发现数据偏差，例如：

年龄集中在18-60岁
正面朝向图像占主导
某些稀有属性（如AgeOver60）样本不足

对于实际项目，建议对样本极少的属性采用过采样或数据增强策略。以下是一个简单的过采样示例：

from imblearn.over_sampling import RandomOverSampler ros = RandomOverSampler() X_resampled, y_resampled = ros.fit_resample(X_train, y_train[:, attr_idx])

查看全文

http://www.jsqmd.com/news/750982/