当前位置：首页 > news >正文

从零复现DCMH/SSAH实验：手把手搞定NUS-WIDE的TC-21/TC-10子集与Clean Data划分

news 2026/5/11 21:26:07

从零复现DCMH/SSAH实验：NUS-WIDE数据集TC-21/TC-10子集与Clean Data划分全流程指南

在跨模态哈希领域，DCMH和SSAH等经典论文的实验复现往往面临数据准备难题。NUS-WIDE作为多模态基准数据集，其原始结构复杂且论文描述简略，导致研究者难以准确匹配实验设置。本文将系统拆解TC-21/TC-10子集构建与Clean Data筛选的全流程，提供可验证的Python实现方案。

1. NUS-WIDE数据集基础解析

NUS-WIDE包含26.9万样本和81个类别，原始数据包含以下关键文件：

Groundtruth：AllLabels/目录含81个Labels_*.txt文件，每个文件对应一个类别的26.9万行0/1标注
标签文本：Concepts81.txt定义类别名称与ID映射关系
文本特征：AllTags1k.txt提供1000维文本标签的0/1矩阵
图像列表：Imagelist.txt记录样本对应的图像路径

注意：原始数据存在两处已知异常——Labels_lake_Train.txt的78372行值为-1130179，以及6对重复图像（但标签不一致）

数据预处理基础操作如下：

import numpy as np import scipy.io as sio # 类别名称加载 cls_id = {} with open("Concepts81.txt") as f: for cid, line in enumerate(f): cls_id[line.strip()] = cid # 多标签矩阵构建 (269648×81) labels = np.zeros((269648, 81), dtype=np.uint8) for cf in os.listdir("Groundtruth/AllLabels"): c_name = cf.split(".")[0].split("_")[-1] cid = cls_id[c_name] with open(f"Groundtruth/AllLabels/{cf}") as f: for sid, line in enumerate(f): labels[sid, cid] = int(line) > 0

2. TC-21/TC-10子集构建原理

Top-K类筛选是跨模态哈希实验的标准预处理步骤，其核心逻辑为：

统计各类别样本数并降序排列
取前21/10个类别构成子集
过滤掉不属于这些类别的样本

实现代码示例：

# 计算类别样本数 class_counts = labels.sum(axis=0) # 形状(81,) # 获取TC-21类别ID tc21_classes = np.argsort(class_counts)[-21:][::-1] print("TC-21类别样本数：") for cid in tc21_classes: print(f"{id_cls[cid]}: {class_counts[cid]}") # 构建子集标签矩阵 tc21_labels = labels[:, tc21_classes]

关键参数对比：

子集类型	类别数	总样本数	标签基数	匹配论文
TC-21	21	195,834	411,438	DCMH
TC-10	10	186,577	332,189	SSAH

3. Clean Data双重筛选策略

Clean Data的构建存在两种标准：

单筛（Label-only）：仅保留至少有一个有效标签的样本
双筛（Label+Text）：同时要求样本具有非零文本特征

筛选逻辑实现：

def clean_data_filter(labels, texts=None): valid_samples = [] for i in range(len(labels)): if labels[i].sum() == 0: # 无有效标签 continue if texts is not None and texts[i].sum() == 0: # 无文本特征 continue valid_samples.append(i) return np.array(valid_samples) # 单筛示例 clean_tc21 = clean_data_filter(tc21_labels) # 双筛示例 texts = np.load("texts.AllTags1k.npy") # 1000维文本特征 clean_tc21_full = clean_data_filter(tc21_labels, texts)

不同筛选标准的数据量对比：

筛选类型	TC-21样本量	TC-10样本量	适用场景
单筛	195,834	186,577	DCMH实验
双筛	190,421	181,365	SSAH实验

4. 与官方数据的一致性验证

为确保复现准确性，需从三个维度验证自制数据与论文提供.mat文件的一致性：

标签/文本基数校验：比较矩阵元素总和
行列和校验：排序后的行和/列和应完全匹配
样本顺序检测：多数情况下顺序不同但不影响模型效果

验证代码框架：

def validate_results(our_data, ref_data): # 基数校验 assert our_data.sum() == ref_data.sum() # 行和校验 our_rowsum = np.sort(our_data.sum(axis=1)) ref_rowsum = np.sort(ref_data.sum(axis=1)) np.testing.assert_array_equal(our_rowsum, ref_rowsum) # 列和校验 our_colsum = np.sort(our_data.sum(axis=0)) ref_colsum = np.sort(ref_data.sum(axis=0)) np.testing.assert_array_equal(our_colsum, ref_colsum) # 实际调用示例 dcmh_labels = sio.loadmat("nus-wide-tc21-lall.mat")["LAll"] our_labels = labels[clean_tc21][:, tc21_classes] validate_results(our_labels, dcmh_labels)

常见问题解决方案：

基数不匹配：检查是否使用相同的文本特征版本（推荐AllTags1k.txt）
行列和异常：确认类别筛选顺序与论文一致
样本顺序差异：不影响哈希学习效果，可忽略

5. 工程实践中的关键细节

在实际复现过程中，以下几个技术细节需要特别注意：

图像预处理标准化

from PIL import Image import cv2 def load_image(img_path): # 兼容异常图像读取 img = cv2.imread(img_path) if img is None: # OpenCV读取失败时改用PIL with Image.open(img_path) as img_pil: img = np.array(img_pil) if img.ndim == 2: # 灰度图转RGB img = np.repeat(img[:,:,None], 3, axis=2) return cv2.cvtColor(img, cv2.COLOR_BGR2RGB)

文本特征构建的两种方案对比

特征来源	文件	基数	与DCMH匹配
All_Tags.txt	原始标签文本	1,559,503	否
AllTags1k.txt	预处理0/1矩阵	1,559,464	是

数据集划分建议

虽然原始数据包含预设的train/test划分，但建议：

按照论文比例随机划分（通常70%-30%）
确保各类别在训练测试集中均匀分布
固定随机种子保证可复现性

from sklearn.model_selection import train_test_split X_train, X_test = train_test_split( clean_indices, test_size=0.3, stratify=labels[clean_indices], random_state=42 )

6. 完整流程的Python实现

以下为整合各环节的完整处理流程：

# 配置参数 DATA_DIR = "nuswide" TC_TYPE = 21 # 或10 DOUBLE_SIEVE = True # 是否双筛 # 1. 加载原始标签 labels = load_raw_labels(os.path.join(DATA_DIR, "Groundtruth/AllLabels")) # 2. 构建TC子集 tc_classes = get_topk_classes(labels, k=TC_TYPE) tc_labels = labels[:, tc_classes] # 3. 加载文本特征 texts = load_text_features(os.path.join(DATA_DIR, "NUS_WID_Tags/AllTags1k.txt")) # 4. Clean Data筛选 clean_indices = clean_data_filter( tc_labels, texts if DOUBLE_SIEVE else None ) # 5. 结果验证 if TC_TYPE == 21: ref_data = sio.loadmat("nus-wide-tc21-lall.mat")["LAll"] our_data = tc_labels[clean_indices] validate_results(our_data, ref_data) # 6. 保存结果 output = { "labels": tc_labels[clean_indices], "texts": texts[clean_indices], "image_ids": clean_indices } sio.savemat(f"nuswide_tc{TC_TYPE}_clean.mat", output)

执行环境建议：

Python 3.8+ 与 NumPy 1.20+
内存≥32GB（处理全量数据时）
使用SSD存储加速大文件读写

对于无法直接下载的图像数据，建议通过Kaggle等备用源获取完整图像集，并建立软链接保持路径一致性：

# 建立图像软链接示例 ln -s /path/to/downloaded/Flickr/images/ images

7. 跨实验平台的兼容性处理

当需要在不同框架（TensorFlow/PyTorch）中复现实验时，需注意：

数据格式转换

# PyTorch数据加载器示例 class NUSWIDEDataset(torch.utils.data.Dataset): def __init__(self, mat_file): data = sio.loadmat(mat_file) self.labels = torch.from_numpy(data["labels"]).float() self.texts = torch.from_numpy(data["texts"]).float() def __getitem__(self, idx): return { "image": self.load_image(idx), "text": self.texts[idx], "label": self.labels[idx] }

版本差异解决方案

MATLAB与Python的索引差异（1-based vs 0-based）
不同深度学习框架对多维矩阵的存储顺序（C-order vs F-order）
浮点数精度问题（建议统一使用float32）

对于哈希码生成部分，需要特别注意二值化处理的实现方式：

# 统一的二值化处理 def generate_hash_codes(features, threshold=0.5): return (features > threshold).astype(np.float32)

实际项目中遇到的典型问题包括：

图像特征提取器的输入尺寸不匹配（建议统一resize到256x256）
文本特征的归一化方式差异（建议使用L2归一化）
随机种子未固定导致结果不可复现

通过上述系统化的数据处理流程，研究者可以准确复现DCMH、SSAH等论文的实验结果，并为后续的跨模态哈希算法研究奠定可靠的数据基础。

查看全文

http://www.jsqmd.com/news/798158/

打造你的专属桌面伙伴：3步零代码创建个性化虚拟宠物

怪物猎人世界：如何用HunterPie叠加层工具提升你的狩猎效率

AWS DevOps Agent：亚马逊的自主运维 Agent 来了

正规合规经络养生加盟哪家好核心判定维度拆解 - 速递信息

广州企业招人优质服务渠道综合实力盘点 - 速递信息

AI工具搭建自动化视频生成Flash Attention

5个关键配置优化策略：解锁BaiduPCS-Go命令行客户端的完整性能潜力

从黑盒到白盒：基于HITL协议的PX4飞控深度调试与测试实战

AI大模型：离你只差一个打开方式，普通人也能轻松用！

如何通过智能游戏伴侣快速提升竞技水平：从入门到精通的完整指南

20252916 2025-2026-2 《网络攻防实践》第8周作业

告别手动配置：NewGAN-Manager自动化头像管理实战指南

暗黑破坏神2存档编辑器终极指南：免费Web工具快速上手

部分题题解

Qt Creator远程部署调试实战：以Cortex-A5开发板为例，详解.pro文件与部署文件夹配置

2026上海宝山区家装行业全景调研：以预算透明与全链路履约，结构企业综合实力 - 速递信息

从陀螺仪漂移到姿态稳定：卡尔曼、互补与“Tsinghua”滤波的融合之道

20254113 实验三《Python程序设计》实验报告

2026年4家广州企业招人平台对比：招聘方参考指南 - 速递信息

vllora/vllora：视觉-语言大模型LoRA微调实战指南

别再手动看日志了！用Docker Compose一键部署Grafana Loki，5分钟搞定全栈日志监控

从微分方程到代码实现：一个完整案例看懂追赶法（LU分解特例）在数值计算中的应用

Discord CLI管理工具：从命令行自动化社区运营与服务器管理

Elasticsearch 客户端连接数过多导致端口耗尽怎么配置？

实战解析：5个关键策略实现sherpa-onnx语音引擎的跨平台高效部署

终极指南：如何快速掌握Loop Habit Tracker习惯养成应用

绝地求生罗技鼠标宏实战指南：5步实现高效压枪技巧

从GD32F103VGT6到隔离电源：手把手复刻一台三通道程控直流电源（附PCB与BOM）

雷达导论PART III.3 天线波束与角跟踪实战解析

3大核心功能：阴阳师御魂自动挂机脚本解放你的双手