当前位置：首页 > news >正文

机器学习下采样技术：解决不平衡分类问题的实用指南

news 2026/4/27 11:29:00

1. 不平衡分类问题概述

在机器学习分类任务中，我们经常会遇到类别分布严重不均衡的情况。比如在信用卡欺诈检测中，正常交易可能占99.9%，而欺诈交易只有0.1%。这种极端不平衡的数据分布会导致分类器倾向于预测多数类，而忽略少数类——即使将所有样本都预测为多数类，准确率也能达到99.9%，但这显然不是我们想要的结果。

我曾在某电商平台的异常订单检测项目中遇到过类似问题：正常订单占比98.7%，而异常订单仅占1.3%。直接使用原始数据训练的逻辑回归模型将所有样本都预测为正常订单，完全失去了检测意义。这就是典型的不平衡分类问题。

2. 下采样技术原理与算法解析

2.1 随机下采样基础实现

随机下采样(Random Undersampling)是最简单的处理方法，其核心思想是通过随机删除多数类样本来平衡类别分布。Python实现代码如下：

from sklearn.utils import resample # 假设df是原始DataFrame，'label'是目标列 majority = df[df.label==0] minority = df[df.label==1] # 下采样多数类使其数量等于少数类 majority_downsampled = resample(majority, replace=False, n_samples=len(minority), random_state=42) # 合并下采样后的数据 balanced_df = pd.concat([majority_downsampled, minority])

注意：随机下采样会丢失大量多数类样本的信息，可能影响模型对多数类的识别能力。建议保留原始数据的备份。

2.2 Tomek Links算法

Tomek Links由Ivan Tomek在1976年提出，它识别并删除边界线上"模棱两可"的多数类样本。两个样本x和y属于不同类别，且满足：

d(x,y)是两者间的距离
不存在样本z，使得d(x,z) < d(x,y)或d(y,z) < d(x,y)

from imblearn.under_sampling import TomekLinks tl = TomekLinks() X_res, y_res = tl.fit_resample(X, y)

在实际项目中，我发现Tomek Links特别适合处理两类边界模糊的情况。某医疗诊断项目中，使用该算法后AUC提升了0.15。

2.3 压缩最近邻规则(CNN)

CNN算法通过迭代过程移除冗余的多数类样本：

将少数类样本放入集合C
对每个多数类样本，使用1-NN判断是否被C中的样本错误分类
将被错误分类的多数类样本加入C
最终保留C中的多数类样本

from imblearn.under_sampling import CondensedNearestNeighbour cnn = CondensedNearestNeighbour(random_state=42) X_res, y_res = cnn.fit_resample(X, y)

2.4 NearMiss算法变体

NearMiss有三个变体，各有特点：

NearMiss-1：选择与最近的少数类样本平均距离最小的多数类样本
NearMiss-2：选择与最远的少数类样本平均距离最小的多数类样本
NearMiss-3：为每个少数类样本保留指定数量的最近多数类样本

from imblearn.under_sampling import NearMiss nm1 = NearMiss(version=1) X_res1, y_res1 = nm1.fit_resample(X, y) nm3 = NearMiss(version=3, n_neighbors=3) X_res3, y_res3 = nm3.fit_resample(X, y)

在电商评论情感分析中，我对比发现NearMiss-3在保持多数类代表性方面表现最好，F1-score比随机下采样高0.2。

3. 下采样实战应用指南

3.1 算法选择决策树

根据我的项目经验，整理出以下选择指南：

场景特征	推荐算法	原因说明
数据量非常大	随机下采样	计算效率最高
类别边界模糊	Tomek Links	能清晰化决策边界
多数类内部差异大	NearMiss-3	保留有代表性的多数类样本
需要最大限度保留信息	CNN	去除冗余样本
不确定哪种方法合适	组合多种方法	比较验证效果

3.2 与过采样的组合策略

在实际项目中，我经常将下采样与SMOTE等过采样技术结合使用：

首先用Tomek Links清理边界样本
然后对少数类应用SMOTE
最后用NearMiss-1平衡最终数据集

from imblearn.combine import SMOTETomek smt = SMOTETomek(tomek=TomekLinks(), random_state=42) X_res, y_res = smt.fit_resample(X, y)

3.3 评估指标选择

准确率在不平衡分类中毫无意义。我推荐使用以下指标组合：

混淆矩阵（直观展示各类别表现）
Precision-Recall曲线（尤其关注AUPRC）
F1-score（平衡精确率和召回率）
G-mean（几何平均数，反映整体性能）

from sklearn.metrics import classification_report, average_precision_score print(classification_report(y_test, y_pred)) ap_score = average_precision_score(y_test, y_pred)

4. 常见问题与解决方案

4.1 信息丢失问题

问题现象：下采样后模型对多数类的识别能力下降明显。

解决方案：

采用集成方法：对多数类做多次下采样，生成多个子模型
使用NearMiss-3等算法保留有代表性的样本
结合过采样技术平衡信息保留需求

from imblearn.ensemble import BalancedBaggingClassifier from sklearn.tree import DecisionTreeClassifier bbc = BalancedBaggingClassifier(base_estimator=DecisionTreeClassifier(), sampling_strategy='auto', random_state=42) bbc.fit(X_train, y_train)

4.2 计算效率问题

问题现象：某些算法（如CNN）在大数据集上运行缓慢。

优化技巧：

先对数据进行PCA降维
使用KD-tree等加速近邻搜索
对大数据集先做随机采样再应用精细算法

from sklearn.decomposition import PCA from sklearn.neighbors import KDTree pca = PCA(n_components=0.95) X_pca = pca.fit_transform(X) tree = KDTree(X_pca)

4.3 参数调优策略

下采样算法通常有一些关键参数需要调整：

NearMiss的n_neighbors：通常3-5效果较好
CNN的n_seeds_S：控制初始样本量，建议设为少数类样本数的1-2倍
Tomek Links的sampling_strategy：控制下采样比例

我的经验是使用网格搜索结合交叉验证：

from sklearn.model_selection import GridSearchCV param_grid = {'n_neighbors': [3,5,7]} nm = NearMiss(version=3) gscv = GridSearchCV(nm, param_grid, scoring='average_precision') gscv.fit(X, y)