当前位置：首页 > news >正文

样本不均衡时AUC反而下降？用imbalanced-learn库实战解决分类陷阱

news 2026/3/26 23:13:18

样本不均衡时AUC反而下降？用imbalanced-learn库实战解决分类陷阱

在机器学习分类任务中，我们常常会遇到一个令人困惑的现象：明明模型在训练集上表现良好，但在测试集上AUC（Area Under Curve）指标却意外下降，甚至低于0.5的随机猜测水平。这种情况在样本不均衡的数据集中尤为常见，比如信用卡欺诈检测、罕见疾病诊断等场景。本文将深入探讨这一现象背后的原因，并通过imbalanced-learn库提供的多种采样方法，带您实战解决这一分类陷阱。

1. 为什么样本不均衡会导致AUC下降？

样本不均衡问题在真实世界数据中几乎无处不在。以信用卡欺诈检测为例，正常交易可能占99.9%，而欺诈交易仅占0.1%。当我们在这样的数据集上训练分类模型时，模型会倾向于预测所有样本都属于多数类（正常交易），因为这样就能获得很高的准确率。

但为什么这种倾向会导致AUC下降呢？AUC衡量的是模型区分正负样本的能力。当模型将所有样本都预测为同一类别时：

真正例率（TPR）和假正例率（FPR）会趋于相同
ROC曲线会接近对角线
AUC值会趋近于0.5（随机猜测水平）

更糟糕的是，如果模型对少数类的预测完全错误，AUC甚至可能低于0.5。这种现象通常表明模型不仅没有学习到有用的模式，反而学到了相反的模式。

注意：AUC=0.5并不意味着模型完全无效，但AUC<0.5则强烈暗示模型存在严重问题，其预测可能比随机猜测还要糟糕。

2. 样本不均衡解决方案概览

解决样本不均衡问题主要有三种思路：

数据层面：调整样本分布
- 过采样（Oversampling）：增加少数类样本
- 欠采样（Undersampling）：减少多数类样本
- 混合采样（Combination）：结合过采样和欠采样
算法层面：修改模型训练过程
- 类别权重（Class Weight）：给不同类别分配不同的误分类代价
- 代价敏感学习（Cost-sensitive Learning）：明确指定误分类代价矩阵
评估指标：使用更适合的指标
- 精确率-召回率曲线下面积（PR-AUC）
- F1分数、G-mean等

本文将重点介绍数据层面的解决方案，特别是imbalanced-learn库提供的各种采样方法。

3. imbalanced-learn库实战

imbalanced-learn是一个专门用于处理不均衡数据集的Python库，与scikit-learn完美兼容。它提供了多种采样算法，下面我们通过Kaggle信用卡欺诈检测数据集来演示几种常用方法。

3.1 数据准备

首先加载必要的库和数据集：

import pandas as pd from sklearn.model_selection import train_test_split from sklearn.ensemble import RandomForestClassifier from sklearn.metrics import roc_auc_score # 加载数据 data = pd.read_csv('creditcard.csv') X = data.drop('Class', axis=1) y = data['Class'] # 查看类别分布 print(y.value_counts()) # 输出： # 0 284315 # 1 492

可以看到这是一个极度不均衡的数据集，正例（欺诈交易）仅占0.17%。

3.2 基准模型

在不进行任何采样处理的情况下，我们先建立一个基准模型：

# 分割数据集 X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42) # 训练随机森林模型 rf = RandomForestClassifier(random_state=42) rf.fit(X_train, y_train) # 评估 y_pred = rf.predict_proba(X_test)[:, 1] print(f"基准AUC: {roc_auc_score(y_test, y_pred):.4f}") # 输出：基准AUC: 0.9235

虽然AUC看起来不错，但我们需要进一步分析模型在少数类上的表现。

3.3 SMOTE过采样

SMOTE（Synthetic Minority Over-sampling Technique）是最常用的过采样方法之一，它通过在特征空间中合成新的少数类样本来平衡数据集。

from imblearn.over_sampling import SMOTE # 应用SMOTE smote = SMOTE(random_state=42) X_res, y_res = smote.fit_resample(X_train, y_train) # 查看新分布 print(y_res.value_counts()) # 输出： # 1 199020 # 0 199020 # 训练模型 rf_smote = RandomForestClassifier(random_state=42) rf_smote.fit(X_res, y_res) # 评估 y_pred_smote = rf_smote.predict_proba(X_test)[:, 1] print(f"SMOTE处理后AUC: {roc_auc_score(y_test, y_pred_smote):.4f}") # 输出：SMOTE处理后AUC: 0.9763

可以看到，SMOTE处理后AUC从0.9235提升到了0.9763，提升显著。

3.4 RandomUnderSampler欠采样

与过采样相反，欠采样通过减少多数类样本来平衡数据集。RandomUnderSampler是最简单的随机欠采样方法。

from imblearn.under_sampling import RandomUnderSampler # 应用随机欠采样 rus = RandomUnderSampler(random_state=42) X_res, y_res = rus.fit_resample(X_train, y_train) # 查看新分布 print(y_res.value_counts()) # 输出： # 0 344 # 1 344 # 训练模型 rf_rus = RandomForestClassifier(random_state=42) rf_rus.fit(X_res, y_res) # 评估 y_pred_rus = rf_rus.predict_proba(X_test)[:, 1] print(f"欠采样后AUC: {roc_auc_score(y_test, y_pred_rus):.4f}") # 输出：欠采样后AUC: 0.9612

欠采样也带来了AUC的提升，但相比SMOTE略低。这是因为欠采样丢弃了大量多数类样本，可能导致信息损失。

3.5 SMOTEENN混合采样

SMOTEENN结合了SMOTE过采样和ENN（Edited Nearest Neighbours）欠采样，通常能取得更好的效果。

from imblearn.combine import SMOTEENN # 应用SMOTEENN smote_enn = SMOTEENN(random_state=42) X_res, y_res = smote_enn.fit_resample(X_train, y_train) # 训练模型 rf_smoteenn = RandomForestClassifier(random_state=42) rf_smoteenn.fit(X_res, y_res) # 评估 y_pred_smoteenn = rf_smoteenn.predict_proba(X_test)[:, 1] print(f"SMOTEENN处理后AUC: {roc_auc_score(y_test, y_pred_smoteenn):.4f}") # 输出：SMOTEENN处理后AUC: 0.9785

SMOTEENN取得了本次实验中最高的AUC值0.9785，说明混合采样策略在这种场景下更为有效。

4. 不同采样方法效果对比

为了更全面地评估各种采样方法的效果，我们整理了一个对比表格：

方法	训练集样本数	测试集AUC	训练时间(s)
无采样	199,020	0.9235	12.4
SMOTE	398,040	0.9763	24.7
RandomUnderSampler	688	0.9612	0.8
SMOTEENN	~300,000	0.9785	32.1

从表中可以看出：

SMOTE显著提升了模型性能，但增加了训练时间
RandomUnderSampler训练速度最快，但性能提升有限
SMOTEENN取得了最佳性能，但计算成本最高

在实际项目中，我们需要根据具体需求在性能和效率之间做出权衡。如果计算资源充足，SMOTEENN通常是首选；如果追求快速迭代，可以先尝试RandomUnderSampler。

5. 进阶技巧与注意事项

5.1 采样策略的交叉验证

在使用采样方法时，一个常见的错误是在交叉验证前就进行采样，这会导致数据泄露（data leakage）。正确的做法是在交叉验证的每个fold内部进行采样：

from imblearn.pipeline import make_pipeline from sklearn.model_selection import cross_val_score # 创建包含SMOTE的pipeline pipeline = make_pipeline( SMOTE(random_state=42), RandomForestClassifier(random_state=42) ) # 交叉验证 scores = cross_val_score(pipeline, X_train, y_train, cv=5, scoring='roc_auc') print(f"交叉验证AUC: {scores.mean():.4f} (±{scores.std():.4f})")

5.2 类别权重替代方案

对于某些模型（如逻辑回归、随机森林），我们可以通过调整类别权重来替代采样：

# 使用类别权重 rf_weighted = RandomForestClassifier( class_weight='balanced', random_state=42 ) rf_weighted.fit(X_train, y_train) y_pred_weighted = rf_weighted.predict_proba(X_test)[:, 1] print(f"类别权重AUC: {roc_auc_score(y_test, y_pred_weighted):.4f}")

这种方法避免了采样带来的计算开销，但可能不如采样方法灵活。