当前位置：首页 > news >正文

从校准曲线到可靠概率：解锁分类模型预测的可信度

news 2026/5/12 18:20:56

1. 为什么我们需要关心概率校准？

当你训练一个二分类模型时，模型输出的概率值真的可信吗？这个问题困扰了我很久。记得第一次做金融风控项目时，模型给出的违约概率是0.7，但实际观察发现这类客户只有50%真的违约了。这种"过度自信"的预测会导致严重的业务决策失误。

分类模型输出的概率本质上是一种"置信度"，但很多算法（特别是随机森林、SVM这类）天生就不擅长输出校准好的概率。就像天气预报说"70%概率下雨"，如果十次里有七次确实下雨了，这个概率就是校准良好的。模型校准要解决的就是让预测概率和实际观察频率相匹配的问题。

在医疗诊断、金融风控这些高风险场景，一个校准不良的模型可能会带来灾难性后果。比如模型预测某患者有80%患癌概率，但实际100个这样的患者里只有50个确诊，这种偏差会导致过度治疗或资源浪费。校准曲线就是帮我们诊断这类问题的"听诊器"。

2. 校准曲线：模型概率的"体检报告"

2.1 解读校准曲线的关键特征

校准曲线的画法其实很直观：把预测概率分成若干个区间（比如0-0.1，0.1-0.2...），计算每个区间内实际正样本的比例，然后绘制预测概率均值（x轴）和实际正例比例（y轴）的关系。理想情况下应该是一条45度对角线。

我常用以下三个指标判断校准质量：

单调性：曲线应该整体呈上升趋势，预测概率越高实际正例比例越大
偏离程度：曲线与对角线的距离越小越好
波动性：曲线应该尽量平滑，避免剧烈抖动

举个例子，某金融风控模型的校准曲线在0.6-0.7区间突然下降，意味着模型对这个概率区间的预测严重失准。后来发现是因为这个分数段正好是人工审核的阈值边界，模型学习到了人为干预的模式。

2.2 常见的不良校准曲线类型

根据我的经验，不良校准通常呈现这些形态：

S型曲线：模型普遍过度自信（曲线在对角线下方）
反S型曲线：模型普遍信心不足（曲线在对角线上方）
阶梯状曲线：某些概率区间出现明显跳跃
水平线段：模型在某些区间完全失去分辨能力

最近遇到一个有趣的案例：一个电商转化率预测模型在0.3-0.4概率区间出现水平线，排查发现是这个区间聚集了大量使用优惠券的用户，而模型没有很好捕捉这个特征。

3. 实战：用Python修复校准曲线

3.1 准备模拟数据

我们先创建一个有明显校准问题的数据集：

from sklearn.datasets import make_classification from sklearn.model_selection import train_test_split # 创建不平衡数据集（90%负样本） X, y = make_classification(n_samples=10000, n_features=20, n_classes=2, weights=[0.9,0.1], flip_y=0.3, random_state=42) # 划分训练测试集 X_train, X_test, y_train, y_test = train_test_split( X, y, test_size=0.2, stratify=y, random_state=42)

3.2 训练原始模型并绘制校准曲线

用随机森林训练一个基础模型：

from sklearn.ensemble import RandomForestClassifier from sklearn.calibration import calibration_curve import matplotlib.pyplot as plt rf = RandomForestClassifier(n_estimators=100, random_state=42) rf.fit(X_train, y_train) # 绘制校准曲线 prob_true, prob_pred = calibration_curve( y_test, rf.predict_proba(X_test)[:,1], n_bins=10) plt.figure(figsize=(8,5)) plt.plot(prob_pred, prob_true, marker='o', label='Random Forest') plt.plot([0,1], [0,1], linestyle='--', color='gray', label='Perfect') plt.xlabel('Predicted Probability') plt.ylabel('Actual Probability') plt.title('Calibration Curve Before Adjustment') plt.legend() plt.show()

3.3 应用两种校准方法

Scikit-learn提供了两种主流校准方法：

Sigmoid校准（Platt Scaling）

from sklearn.calibration import CalibratedClassifierCV # Sigmoid校准 calib_sigmoid = CalibratedClassifierCV(rf, method='sigmoid', cv='prefit') calib_sigmoid.fit(X_train, y_train) # 评估 prob_true_sigmoid, prob_pred_sigmoid = calibration_curve( y_test, calib_sigmoid.predict_proba(X_test)[:,1], n_bins=10)

Isotonic校准（保序回归）

# Isotonic校准 calib_iso = CalibratedClassifierCV(rf, method='isotonic', cv='prefit') calib_iso.fit(X_train, y_train) # 评估 prob_true_iso, prob_pred_iso = calibration_curve( y_test, calib_iso.predict_proba(X_test)[:,1], n_bins=10)

3.4 结果对比可视化

plt.figure(figsize=(10,6)) plt.plot(prob_pred, prob_true, marker='o', label='Original') plt.plot(prob_pred_sigmoid, prob_true_sigmoid, marker='^', label='Sigmoid') plt.plot(prob_pred_iso, prob_true_iso, marker='s', label='Isotonic') plt.plot([0,1], [0,1], 'k--', label='Perfect') plt.xlabel('Mean Predicted Probability') plt.ylabel('Fraction of Positives') plt.title('Calibration Curves Comparison') plt.legend() plt.grid(True) plt.show()

从我的实践经验看：

Sigmoid适合样本较少的情况，强制全局单调
Isotonic更灵活但对小样本容易过拟合
当特征>1000时建议先用PCA降维再校准

4. 高级校准技巧与注意事项

4.1 分位数分箱的妙用

默认的等宽分箱可能掩盖局部问题。我更喜欢用分位数分箱：

def quantile_calibration_curve(y_true, y_prob, n_bins=10): quantiles = np.percentile(y_prob, np.linspace(0,100,n_bins+1)) bins = np.unique(quantiles) return calibration_curve(y_true, y_prob, bins=bins) prob_true_q, prob_pred_q = quantile_calibration_curve( y_test, rf.predict_proba(X_test)[:,1])

4.2 类别不平衡时的校准策略

对于极端不平衡数据（如1:99），建议：

在校准阶段使用分层抽样
尝试Bayesian校准方法
在评估时使用Brier分数而不是准确率

from sklearn.metrics import brier_score_loss print(f"Brier score - Original: {brier_score_loss(y_test, rf.predict_proba(X_test)[:,1]):.4f}") print(f"Brier score - Sigmoid: {brier_score_loss(y_test, calib_sigmoid.predict_proba(X_test)[:,1]):.4f}") print(f"Brier score - Isotonic: {brier_score_loss(y_test, calib_iso.predict_proba(X_test)[:,1]):.4f}")