当前位置：首页 > news >正文

从CSV到文件夹：用Python脚本把Mini-ImageNet改造成Keras/TF能直接用的分类数据集

news 2026/6/14 8:56:46

从CSV到文件夹：用Python脚本把Mini-ImageNet改造成Keras/TF能直接用的分类数据集

在深度学习领域，数据预处理往往是项目中最耗时却最容易被忽视的环节。特别是当您尝试复现小样本学习（Few-shot Learning）论文时，可能会遇到这样的困境：论文中提到的Mini-ImageNet数据集已经下载完成，但面对一堆散乱的图片和CSV标签文件，却不知如何将其转换为Keras或TensorFlow能够直接使用的标准目录结构。这正是本文要解决的核心问题——通过Python脚本实现从原始数据到可用分类数据集的自动化转换。

Mini-ImageNet作为ImageNet的精简版，包含100个类别共6万张图片，是Few-shot Learning研究的黄金标准。但原始数据采用"图片池+CSV标签"的松散结构，与主流框架期望的"train/class_name/image.jpg"层级结构存在显著差异。这种差异常常成为初学者实践道路上的第一道障碍。

本文将带您深入理解两种数据组织方式的本质区别，并通过两个精心设计的Python脚本（约150行核心代码）完成整个转换流程。您将学到如何用pandas高效处理CSV标签，用PIL安全读取图像，以及用os模块构建符合ImageDataGenerator要求的目录树。更重要的是，我们会剖析每个关键步骤的设计原理，使您能够灵活调整脚本以适应不同的划分比例或数据集结构。

1. 理解Mini-ImageNet的原始结构

1.1 数据集组成解析

Mini-ImageNet的原始包通常包含以下关键文件：

images/：存储所有60000张JPEG图片的文件夹，文件名如n0153282900000005.jpg
train.csv/val.csv/test.csv：三个分割集的标签文件，格式为filename,label
imagenet_class_index.json：标签ID到类别名称的映射文件

典型的CSV标签文件前几行示例：

filename,label n0153282900000005.jpg,n01532829 n0155899300000005.jpg,n01558993 n0158222000000005.jpg,n01582220

1.2 与Keras/TF需求的差异对比

标准深度学习框架期望的数据结构：

mini-imagenet/ train/ class1/ img1.jpg img2.jpg class2/ img1.jpg val/ class1/ img3.jpg class2/ img2.jpg

而原始结构的问题在于：

所有图片混放在同一文件夹，需依赖CSV查找标签
类别标识使用晦涩的WordNet ID（如n01532829）
预定义的分割可能不符合您的实验需求

提示：这种差异本质上是"标签中心化"与"图像中心化"两种数据管理哲学的差异。理解这一点对后续自定义处理非常重要。

2. 环境准备与脚本设计思路

2.1 所需Python库及版本

确保安装以下库（推荐使用虚拟环境）：

pip install pandas pillow matplotlib

核心库的作用：

pandas：高效处理CSV标签和数据集划分
Pillow（PIL）：图像读取和格式验证
os/shutil：目录操作和文件移动

2.2 双脚本处理流程设计

我们采用两阶段处理策略：

classification_process.py：
- 合并原始CSV标签
- 按类别重新划分训练/验证集
- 生成易读的类别映射文件
dataset_process.py：
- 根据新标签创建标准目录结构
- 将图片复制到对应类别文件夹
- 保留原始图像质量

这种分离设计使得：

可以单独调整划分策略而不影响文件操作
避免在单脚本中处理过多关注点
更符合Unix"一个工具做好一件事"的哲学

3. 标签处理与数据集划分

3.1 核心函数解析

classification_process.py的关键函数：

def calculate_split_info(path: str, label_dict: dict, rate: float = 0.2): # 读取所有图片文件 image_dir = os.path.join(path, "images") images_list = [i for i in os.listdir(image_dir) if i.endswith(".jpg")] # 合并所有CSV标签 train_data, _ = read_csv_classes(path, "train.csv") val_data, _ = read_csv_classes(path, "val.csv") test_data, _ = read_csv_classes(path, "test.csv") data = pd.concat([train_data, val_data, test_data], axis=0) # 按类别划分 split_train_data = [] split_val_data = [] for label in labels: class_data = data[data["label"] == label] shuffled = class_data.sample(frac=1, random_state=1) # 固定随机种子确保可复现 split_point = int(len(shuffled) * (1 - rate)) split_train_data.append(shuffled[:split_point]) split_val_data.append(shuffled[split_point:]) # 保存新CSV pd.concat(split_train_data).to_csv(os.path.join(path, "new_train.csv")) pd.concat(split_val_data).to_csv(os.path.join(path, "new_val.csv"))

3.2 关键参数调整指南

划分比例(rate)：
- 默认0.2表示80%训练，20%验证
- 对小样本学习可调整为0.5（50-50划分）
随机种子(random_state)：
- 固定种子确保每次运行结果一致
- 设为None则每次划分不同
类别平衡：
- 当前脚本保持原始类别分布
- 如需平衡，可在循环内添加采样逻辑

注意：修改划分比例后，需确保每个类别至少有1张验证图片，否则会引发后续处理错误。

4. 构建标准目录结构

4.1 文件操作最佳实践

dataset_process.py的核心逻辑：

for img_file in os.listdir(img_path): src_path = os.path.join(img_path, img_file) img = Image.open(src_path) # 验证图像有效性 if img_file in train_label: class_name = train_label[img_file] dest_dir = os.path.join(new_img_path, 'train', class_name) os.makedirs(dest_dir, exist_ok=True) # Python 3.2+支持 img.save(os.path.join(dest_dir, img_file))

关键优化点：

使用exist_ok=True避免重复创建目录的检查
保持原始文件名便于追溯
通过PIL.Image验证图像完整性

4.2 异常处理与日志记录

建议添加的健壮性代码：

try: img = Image.open(src_path) img.verify() # 验证图像完整性 except (IOError, SyntaxError) as e: print(f"损坏图像: {img_file} - {str(e)}") continue

对于大型数据集，可添加进度显示：

if i % 1000 == 0: print(f"已处理 {i}/{total} 张图片 ({(i/total)*100:.1f}%)")

5. 高级应用与自定义扩展

5.1 支持自定义类别子集

若只需使用部分类别，修改标签读取部分：

selected_classes = ['n01532829', 'n01558993'] # 指定需要的WordNet ID filtered_data = data[data['label'].isin(selected_classes)]

5.2 多进程加速处理

对于超大规模数据集，可使用multiprocessing：

from multiprocessing import Pool def process_image(args): img_file, label_map = args # ...处理逻辑... with Pool(processes=4) as pool: pool.map(process_image, [(f, label_map) for f in image_files])

5.3 生成TFRecords格式

如需进一步优化TensorFlow性能：

def _bytes_feature(value): return tf.train.Feature(bytes_list=tf.train.BytesList(value=[value])) with tf.io.TFRecordWriter(output_file) as writer: feature = { 'image': _bytes_feature(img_bytes), 'label': _bytes_feature(label.encode()) } writer.write(tf.train.Example( features=tf.train.Features(feature=feature)).SerializeToString())

6. 验证与使用转换后的数据集

6.1 目录结构检查

成功转换后应看到：

mini-imagenet/ train/ tench/ n0144076400000001.jpg ... goldfish/ n0144353700000001.jpg ... val/ tench/ n0144076400000002.jpg ...

6.2 在Keras中的使用示例

from tensorflow.keras.preprocessing.image import ImageDataGenerator train_datagen = ImageDataGenerator(rescale=1./255) train_generator = train_datagen.flow_from_directory( 'mini-imagenet/train', target_size=(224, 224), batch_size=32, class_mode='categorical' )

6.3 常见问题排查

图片数量不符：
- 检查原始CSV是否包含所有图片
- 验证图片扩展名（有些可能是.JPG而非.jpg）
类别文件夹缺失：
- 确认imagenet_class_index.json路径正确
- 检查标签映射是否完整
内存不足：
- 分批次处理大型数据集
- 考虑使用生成器而非一次性加载

在实际项目中，我发现最常出现的错误是文件路径问题——特别是在Windows系统上反斜杠和正斜杠的混用。一个可靠的解决方案是始终坚持使用os.path.join()构建路径，这能确保代码跨平台兼容性。另一个实用技巧是在脚本开始时添加路径验证逻辑：

if not os.path.exists(img_path): raise FileNotFoundError(f"图片目录不存在: {img_path}")

对于需要频繁实验不同划分比例的研究场景，建议将划分比例参数化并通过命令行传递：

import argparse parser = argparse.ArgumentParser() parser.add_argument('--split_ratio', type=float, default=0.2) args = parser.parse_args() calculate_split_info(data_dir, label_dict, rate=args.split_ratio)

这样只需运行python classification_process.py --split_ratio 0.3即可快速获得70-30的划分，而无需修改源代码。这种设计模式特别适合超参数搜索和消融实验。

查看全文

http://www.jsqmd.com/news/1010793/