当前位置：首页 > news >正文

成本敏感神经网络解决不平衡分类问题

news 2026/6/17 15:46:45

1. 不平衡分类问题的本质与挑战

在真实世界的数据分析场景中，我们经常会遇到类别分布严重不均衡的情况。比如在金融欺诈检测中，正常交易可能占99.9%，而欺诈交易只有0.1%；在医疗诊断中，健康样本往往远多于患病样本。这种数据不平衡会导致传统机器学习模型（包括标准神经网络）倾向于预测多数类，因为这样就能获得很高的准确率——即使把所有样本都预测为多数类，在极端不平衡情况下也能达到99%的"准确率"，但这显然不是我们想要的结果。

成本敏感学习(Cost-Sensitive Learning)为解决这一问题提供了有效思路。不同于简单地对少数类样本进行过采样或对多数类欠采样，成本敏感方法通过为不同类别的错误分类分配不同的惩罚成本，让模型在训练过程中主动关注那些代价更高的错误。举个例子，在癌症诊断中，将健康人误诊为癌症（假阳性）和将癌症患者误诊为健康（假阴性）的后果严重性完全不同，后者显然需要更高的惩罚成本。

2. 成本敏感神经网络的实现框架

2.1 损失函数改造

标准神经网络通常使用交叉熵损失函数，它对所有类别的错误分类给予同等惩罚。要实现成本敏感，我们需要修改损失函数，为不同类别引入不同的权重系数。数学表达式如下：

Cost-Sensitive Cross-Entropy = - Σ [w_i * y_i * log(p_i)]

其中：

w_i 是第i类的权重系数
y_i 是真实标签的one-hot编码
p_i 是模型预测的概率

在实际操作中，权重的设置通常与类别频率成反比。一个常用的方法是使用逆类别频率：

w_i = 1 / frequency_of_class_i

对于极度不平衡的数据（如1:1000），直接使用逆频率可能导致数值不稳定，这时可以采用平滑处理：

w_i = 1 / (frequency_of_class_i + ε)

2.2 网络架构设计考量

除了损失函数，网络架构本身也需要针对不平衡数据进行调整：

更深的网络不一定更好：对于小样本类别，过于复杂的模型容易过拟合
建议使用带dropout的较浅网络，配合适当的正则化
最后一层建议使用softmax激活，确保输出是规范化的概率分布
考虑在倒数第二层使用ReLU等激活函数，增强非线性表达能力

2.3 类别权重计算实践

在Python中，使用scikit-learn可以方便地计算类别权重：

from sklearn.utils.class_weight import compute_class_weight import numpy as np classes = np.unique(y_train) weights = compute_class_weight('balanced', classes=classes, y=y_train) class_weights = dict(zip(classes, weights))

然后在Keras训练时传入这些权重：

model.fit(X_train, y_train, class_weight=class_weights, epochs=100, batch_size=32)

3. 进阶优化策略

3.1 动态权重调整

固定权重可能不是最优解，特别是当不同类别的样本难度也不同时。我们可以实现动态调整：

基于样本的预测置信度调整权重
引入focal loss思想，让模型更关注难以分类的样本
在训练过程中根据验证集表现自动调整权重

一个focal loss的实现示例：

def focal_loss(gamma=2., alpha=.25): def focal_loss_fixed(y_true, y_pred): pt = tf.where(tf.equal(y_true, 1), y_pred, 1-y_pred) return -K.mean(alpha * K.pow(1-pt, gamma) * K.log(pt)) return focal_loss_fixed

3.2 混合采样策略

单纯依赖成本敏感可能还不够，可以结合采样技术：

训练时对少数类进行适度过采样(SMOTE)
对多数类进行轻度欠采样
使用ADASYN等高级过采样方法

关键是要在采样和成本敏感之间找到平衡点。实践经验表明，轻度欠采样+成本敏感通常效果较好。

3.3 阈值移动技术

在推理阶段，默认的0.5分类阈值可能不是最优的。我们可以：

在验证集上绘制PR曲线
找到使F1-score或业务指标最大化的阈值
应用该阈值进行预测

from sklearn.metrics import precision_recall_curve precisions, recalls, thresholds = precision_recall_curve(y_val, y_pred) f1_scores = 2*(precisions*recalls)/(precisions+recalls) best_threshold = thresholds[np.argmax(f1_scores)]

4. 评估指标选择

在不平衡分类问题中，准确率是完全无效的指标。应该关注：

精确率(Precision)和召回率(Recall)的平衡
F1-score（两者的调和平均）
AUC-PR（比ROC-AUC更适合不平衡数据）
特定业务指标（如欺诈检测中的捕获率）

实现多指标监控的Keras回调示例：

from sklearn.metrics import f1_score, precision_score, recall_score class MetricsCallback(tf.keras.callbacks.Callback): def on_epoch_end(self, epoch, logs=None): val_pred = np.argmax(self.model.predict(X_val), axis=1) val_true = y_val logs['val_f1'] = f1_score(val_true, val_pred) logs['val_precision'] = precision_score(val_true, val_pred) logs['val_recall'] = recall_score(val_true, val_pred)

5. 实际应用中的注意事项

5.1 类别权重的合理设置

虽然逆频率是常用方法，但在实际业务中，权重的设置应该考虑：

不同类别错误分类的业务成本
收集少数类样本的真实成本
模型误判带来的声誉风险

建议与业务专家共同确定权重，而不仅仅是依赖数学公式。

5.2 避免过拟合的特别技巧

不平衡数据下，模型很容易对少数类过拟合：

使用更强的正则化（L2权重衰减，dropout率提高）
早停法(early stopping)要基于验证集的F1而非loss
考虑使用标签平滑(label smoothing)
限制模型容量（减少层数或隐藏单元数）

5.3 生产环境部署考量

在实际部署时需要注意：

实时预测时的阈值应用
监控模型在不同群体上的表现差异
设计合适的回退机制（当模型置信度低时）
持续评估模型表现，特别是少数类的识别率

6. 完整实现示例

以下是一个基于TensorFlow 2.x的完整成本敏感神经网络实现：

import tensorflow as tf from tensorflow.keras import layers, models from sklearn.datasets import make_classification from sklearn.model_selection import train_test_split # 生成不平衡数据 X, y = make_classification(n_samples=10000, n_features=20, n_classes=2, weights=[0.99, 0.01], random_state=42) # 计算类别权重 neg, pos = np.bincount(y) total = neg + pos weight_for_0 = (1 / neg) * (total / 2.0) weight_for_1 = (1 / pos) * (total / 2.0) class_weight = {0: weight_for_0, 1: weight_for_1} # 构建模型 def create_model(): model = models.Sequential([ layers.Dense(64, activation='relu', input_shape=(20,)), layers.Dropout(0.5), layers.Dense(32, activation='relu'), layers.Dropout(0.5), layers.Dense(1, activation='sigmoid') ]) model.compile(optimizer='adam', loss='binary_crossentropy', metrics=['accuracy', tf.keras.metrics.AUC(name='prc', curve='PR')]) return model # 训练配置 early_stopping = tf.keras.callbacks.EarlyStopping( monitor='val_prc', verbose=1, patience=10, mode='max', restore_best_weights=True) # 训练模型 model = create_model() history = model.fit( X_train, y_train, validation_data=(X_val, y_val), epochs=100, batch_size=256, class_weight=class_weight, callbacks=[early_stopping], verbose=2)