当前位置：首页 > news >正文

DAIC-WOZ抑郁数据集实战：从申请到特征提取的全流程避坑指南

news 2026/7/7 6:51:24

DAIC-WOZ抑郁数据集实战：从申请到特征提取的全流程避坑指南

当你第一次接触DAIC-WOZ这个抑郁分析领域的经典数据集时，可能会被它复杂的文件结构和繁琐的申请流程搞得晕头转向。作为一个曾经花了整整两周时间才把数据处理明白的研究者，我想分享一些官方文档里没有的实战经验。

这个数据集最让人头疼的不是算法本身，而是那些隐藏的"坑"——从申请下载时的漫长等待，到CLNF特征文件解析时的格式陷阱，再到COVAREP音频处理时的各种报错。本文将带你走完整个流程，并附上我调试过的代码模板，让你少走弯路。

1. 数据获取与预处理

1.1 申请流程的隐藏技巧

DAIC-WOZ的官网申请需要填写详细的研究计划，但有几个技巧可以加速审批：

联系邮箱：使用机构邮箱(.edu/.ac.cn)申请通过率更高
研究描述：明确提及"心理健康研究"而非泛泛的"AI研究"
备用方案：如果48小时未收到回复，可礼貌地发送跟进邮件

下载后的数据包结构看似简单，但有几个关键点需要注意：

DAIC-WOZ/ ├── 300_P/ # 单个访谈样本 ├── ... ├── 492_P/ ├── documents/ # 重要！包含评分标准文档 ├── util/ # MATLAB工具脚本 └── *split.csv # 官方划分的训练/验证/测试集

注意：样本342,394,398,460确实缺失，但373、444等样本也存在数据中断问题，需要在预处理时特别处理。

1.2 文件结构的深度解析

每个样本文件夹包含12类文件，最重要的三类特征文件及其陷阱：

文件类型	用途	常见问题
CLNF_*.txt	面部动作单元	时间戳单位不统一
COVAREP.csv	声学特征	清音段需过滤(VUV=0)
TRANSCRIPT.csv	文本转录	包含清洗标记(scrubbed_entry)

特别是CLNF特征文件，虽然扩展名是.txt，但实际是CSV格式。用Python读取时需要特别处理：

import pandas as pd # 错误的读取方式（会丢失头部信息） df = pd.read_csv('XXX_CLNF_features.txt') # 正确的读取方式 df = pd.read_csv('XXX_CLNF_features.txt', header=None, names=['frame','timestamp','confidence','success'] + [f'x_{i}' for i in range(68)] + [f'y_{i}' for i in range(68)])

2. 多模态特征工程实战

2.1 面部动作单元(AU)的特征提取

CLNF输出的面部动作单元包含27个维度，但实际有用的核心AU有：

基础表情：AU4(皱眉)、AU12(嘴角上扬)
抑郁相关：AU15(嘴角下拉)、AU17(下巴隆起)
注意力指标：AU45(眨眼频率)

提取这些特征时需要注意归一化问题：

# AU强度归一化示例 au_columns = ['AU01_r','AU04_r','AU12_r','AU15_r'] df_au = df_raw[au_columns].copy() # 基于每段访谈的个性化Z-score for session in df_au.session_id.unique(): mask = df_au.session_id == session df_au.loc[mask, au_columns] = ( df_au.loc[mask, au_columns] - df_au.loc[mask, au_columns].mean() ) / df_au.loc[mask, au_columns].std()

2.2 音频特征处理的三个关键点

COVAREP提供的声学特征有两大陷阱：

清音段处理：当VUV=0时，F0等特征值为无效值
采样率问题：特征以100Hz采样，而原始音频为16kHz

这里给出一个安全的特征过滤方案：

def filter_valid_audio(features_df): """过滤无效音频段""" valid = features_df['VUV'] == 1 filtered = features_df[valid].copy() # 需要排除的特征列 invalid_cols = ['F0','NAQ','QOQ','H1H2','PSP','MDQ'] filtered[invalid_cols] = filtered[invalid_cols].replace(0, np.nan) return filtered.interpolate() # 线性插值处理

3. 文本模态的特殊处理技巧

原始转录文本包含大量噪声，必须进行三级清洗：

基础清洗：去除scrubbed_entry标记和技术中断描述
语义修正：处理截断词(如"hel"→"hello")
对话分离：区分访谈者(Ellie)和被试的发言

import re def clean_transcript(text): # 去除技术标记 text = re.sub(r'\{.*?\}|\(.*?\)|\[.*?\]', '', text) # 修复截断词 text = re.sub(r'<.*?>', '', text) # 统一小写化（保留句首大写） sentences = [s[0].upper() + s[1:].lower() for s in text.split('. ') if s] return '. '.join(sentences)

4. 多模态融合的实用方案

4.1 时间对齐的三步法

不同模态的采样率差异导致时间对齐成为最大挑战：

音频-文本对齐：基于TRANSCRIPT.csv中的时间戳
视频-音频对齐：使用CLNF文件中的timestamp字段
特征降采样：统一到最低采样率(通常10Hz)

def align_modalities(video_df, audio_df, text_df): # 创建统一时间轴 min_time = max(video_df.timestamp.min(), audio_df.timestamp.min()) max_time = min(video_df.timestamp.max(), audio_df.timestamp.max()) # 重新采样到10Hz new_index = np.linspace(min_time, max_time, int((max_time-min_time)*10)) # 线性插值 video_aligned = video_df.set_index('timestamp').reindex(new_index).interpolate() audio_aligned = audio_df.set_index('timestamp').reindex(new_index).interpolate() return pd.concat([video_aligned, audio_aligned], axis=1)

4.2 样本不平衡的解决策略

数据集中抑郁样本仅占30%，推荐采用以下组合方案：

数据层面：SMOTE过采样 + RandomUnderSampler
算法层面：Focal Loss + 类别权重调整
评估指标：优先看F1-score而非准确率

from imblearn.over_sampling import SMOTE from sklearn.utils.class_weight import compute_class_weight # 计算类别权重 classes = np.unique(y_train) weights = compute_class_weight('balanced', classes=classes, y=y_train) class_weights = dict(zip(classes, weights)) # SMOTE过采样 smote = SMOTE(sampling_strategy='minority') X_res, y_res = smote.fit_resample(X_train, y_train)