当前位置：首页 > news >正文

极端样本不均衡的系统性解决方案：TensorFlow/LightGBM/CatBoost实战

news 2026/6/14 8:02:41

1. 项目概述：为什么处理样本不均衡不是“加个参数”就能解决的事

在真实业务场景里，我经手过银行反欺诈模型，正样本（欺诈交易）占比0.03%；做过电商售后预测，用户申请退货的样本只占训练集的0.8%；也跑过工业设备故障预警，故障记录在数月日志中不到200条。这些都不是教科书里的“1:5”或“1:10”小失衡，而是动辄1:1000甚至1:5000的极端分布。这时候，如果你还指望LightGBM默认的is_unbalance=True、CatBoost的auto_class_weights='Balanced'或者TensorFlow里简单套个class_weight='balanced'就搞定，那模型上线第一天就会给你上一课：AUC看着有0.92，但实际线上召回率不到12%，误杀率却高达37%——因为模型学聪明了，干脆把所有样本全判成多数类，准确率反而冲到99.2%。这根本不是模型能力问题，而是我们对“不平衡”的理解太浅。真正有效的处理，从来不是在算法层打补丁，而是一整套贯穿数据生成、特征工程、损失设计、评估校准的系统性工程。本文讲的，就是我在6个生产级项目中反复验证过的完整链路：从TensorFlow的自定义采样器实现，到LightGBM中scale_pos_weight的精确推导逻辑，再到CatBoost里class_weights与loss_function的耦合陷阱。不讲虚的，每一步都附实测代码、参数计算过程和线上AB测试结果。适合已经跑通基础模型、但卡在“指标好看、效果拉胯”阶段的中级以上从业者。如果你还在用SMOTE生成几百个假样本就去训练，或者靠调threshold硬凑F1值，这篇内容会直接帮你省下至少三周无效迭代时间。

2. 核心思路拆解：为什么“统一用Focal Loss”是最大误区

2.1 三类工具的本质差异决定处理路径必须分而治之

很多人把TensorFlow、LightGBM、CatBoost并列讨论，仿佛它们只是“不同语言写的同款工具”。但实际落地时，它们的底层机制差异大到必须分开设计策略：

TensorFlow是计算图框架，你拥有对每个样本loss的完全控制权。可以动态调整权重、设计渐进式采样、甚至让loss函数随训练轮次变化。它的优势不在“自动平衡”，而在“可编程性”。
LightGBM是梯度提升树，其scale_pos_weight本质是调整正样本梯度的缩放系数。它不改变样本数量，只改变每次分裂时对正样本错误的惩罚力度。这个参数的取值不是经验拍脑袋，而是有严格数学推导依据的。
CatBoost表面看和LightGBM类似，但它内置了ordered boosting和类别型特征处理，class_weights参数实际会影响其内部的梯度计算和叶子节点值估计方式。更关键的是，当loss_function='Logloss'时，class_weights生效；但若换成'CrossEntropy'，权重机制完全不同——这点官方文档写得极其隐晦，我踩过两次坑才搞明白。

提示：不要试图用同一套方案适配三者。我在某金融风控项目中曾强行给TensorFlow模型套用LightGBM的scale_pos_weight逻辑，结果验证集AUC下降0.04，因为TF里没考虑梯度缩放与学习率的耦合效应。

2.2 处理层级必须按“数据→特征→模型→评估”四阶推进

真正的不平衡处理，必须像搭积木一样逐层加固，漏掉任何一层都会导致前功尽弃：

数据层：不是简单删减多数类或复制少数类。要分析少数类样本的分布密度——如果它们本身聚集在特征空间某个狭窄区域，过采样只会加剧过拟合；如果分散且稀疏，则需结合ADASYN等密度感知方法。
特征层：多数类主导的特征（如“用户注册时长>365天”在电商数据中占比92%）会淹没少数类信号。必须做特征重要性重校准：用初始不平衡模型跑一次feature_importance，再用SMOTE平衡后重跑，对比两组结果，剔除那些在不平衡状态下重要、平衡后重要性暴跌的“伪关键特征”。
模型层：这才是大家最熟悉的环节，但重点不是选哪个算法，而是理解每个算法的平衡机制如何与你的业务目标对齐。比如CatBoost的auto_class_weights='Balanced'会按n_samples / (n_classes * n_samples_in_class)计算权重，但如果你的业务更关注“宁可漏判也不误杀”，就得手动设为{0:1, 1:50}而非依赖自动计算。
评估层：这是最容易被忽视的致命环节。用Accuracy评价不平衡模型，等于用平均工资衡量贫富差距。必须构建多维评估矩阵：除了Precision/Recall/F1，还要看KS值（区分能力）、H-measure（调和均值）、以及业务强相关的“Top-K命中率”——比如在推荐系统中，我们只关心预测概率最高的前100个样本里有多少真实正例。

注意：我在某医疗影像项目中发现，模型在验证集上F1=0.68，但实际部署后医生反馈“总漏掉危重病人”。排查发现是评估时用了随机采样的验证集，而真实危重病例在时间序列上具有聚集性。最终改用时间窗口滚动验证（time-based CV），F1指标虽降到0.61，但临床漏诊率下降42%。

2.3 为什么Focal Loss不是万能解药？一个被严重低估的副作用

Focal Loss（FL）在目标检测领域大放异彩，很多人直接把它移植到分类任务。但我在三个项目中实测发现：FL在极端不平衡（<0.1%）场景下，确实能提升Recall，但会带来两个隐蔽代价：

校准性崩塌：FL通过(1-p_t)^γ衰减易分类样本的loss贡献，这导致模型输出的概率值严重偏离真实频率。比如正样本预测概率均值从0.32升到0.71，但实际正样本占比仅0.05。这意味着你无法用0.5阈值做决策，必须重新校准——而Platt Scaling或Isotonic Regression在校准FL模型时效果极差。
特征退化风险：FL过度抑制多数类梯度，使得模型放弃学习那些对多数类区分有用、但对少数类也有价值的通用特征。在某供应链异常检测项目中，启用FL后，模型对“订单金额突增”这类强信号的响应变弱，转而依赖“用户IP归属地变更”等噪声特征，导致跨区域泛化能力下降。

所以我的建议很明确：Focal Loss只作为最后手段。优先尝试更可控的方法——比如TensorFlow中用tf.keras.utils.class_weight.compute_class_weight计算权重后，在model.fit()中传入class_weight；或者LightGBM中精确计算scale_pos_weight。只有当这些方法Recall仍低于业务底线（如<60%）时，再引入FL，并强制搭配温度缩放（Temperature Scaling）做后校准。

3. 实操细节解析：从原理到代码的硬核实现

3.1 TensorFlow：自定义采样器的两种高阶玩法

TensorFlow的灵活性在于你能完全掌控数据流。但多数人只用tf.data.Dataset.sample_from_datasets()做简单轮询采样，这远远不够。我常用两种更精细的策略：

策略一：基于置信度的动态难例挖掘（Hard Example Mining）

核心思想：不是固定采样比例，而是让模型自己“指出”哪些多数类样本最难分——这些样本往往靠近决策边界，对提升泛化更有价值。

# 在训练循环中插入 def get_hard_negatives(model, x_majority, y_majority, threshold=0.8): """获取预测概率高于threshold的多数类样本（即模型‘自信’判错的难例）""" preds = model.predict(x_majority) hard_mask = (preds[:, 1] > threshold) & (y_majority == 0) # 预测为正但实际为负 return x_majority[hard_mask], y_majority[hard_mask] # 使用示例：每10个epoch重新挖掘一次难例 if epoch % 10 == 0: hard_x, hard_y = get_hard_negatives(model, x_majority_train, y_majority_train) # 将hard_x加入训练集，替换掉部分易分多数类样本

策略二：渐进式过采样（Progressive Oversampling）

避免初期过采样导致模型过早陷入局部最优。让少数类样本比例随训练轮次线性增长：

def progressive_oversample(x_minority, y_minority, base_ratio=0.1, max_ratio=0.5, epoch=0, total_epochs=100): """按epoch线性增加少数类采样比例""" ratio = base_ratio + (max_ratio - base_ratio) * (epoch / total_epochs) n_samples = int(len(x_minority) * ratio) # 使用RandomOverSampler，但注意：必须在每次epoch开始前重采样，避免数据泄露 ros = RandomOverSampler(sampling_strategy={1: n_samples}, random_state=42) x_res, y_res = ros.fit_resample(x_minority, y_minority) return x_res, y_res # 在tf.data pipeline中集成 def create_dataset(x_train, y_train, batch_size=32, epochs=100): dataset = tf.data.Dataset.from_tensor_slices((x_train, y_train)) def dynamic_sample(x, y): # 这里需要将epoch信息注入，实际中用tf.Variable管理 # 简化版：假设当前epoch已知 if y == 1: # 少数类，按比例重复 repeat_times = tf.cast(tf.floor(1.0 / 0.02), tf.int32) # 初始按1:50采样 else: repeat_times = 1 return tf.repeat(x, repeat_times, axis=0), tf.repeat(y, repeat_times, axis=0) # 更推荐：在numpy层预处理，用tf.data.Dataset.from_generator return dataset.batch(batch_size).prefetch(tf.data.AUTOTUNE)

实操心得：在某物流时效预测项目中，用渐进式过采样替代固定SMOTE，模型在测试集上的Recall从58%提升至73%，且AUC稳定在0.89以上。关键技巧是：初始阶段（前20% epoch）只做1:5采样，让模型先建立基础判别能力；后期再逐步加码到1:20。否则模型会从第一轮就沉迷于拟合人造样本。

3.2 LightGBM：`scale_pos_weight`的精确计算与陷阱规避

LightGBM的scale_pos_weight常被误认为“正样本数量/负样本数量”，这是典型错误。它的数学本质是：让正样本的梯度幅值放大scale_pos_weight倍，以补偿其在批量更新中的贡献不足。因此，正确计算必须考虑：

业务目标权重：如果漏判一个正样本的业务损失是误判的N倍，则scale_pos_weight应设为N × (负样本数/正样本数)
学习率耦合：scale_pos_weight与learning_rate存在乘积效应。当learning_rate=0.05时，scale_pos_weight=100的实际梯度放大效果，约等于learning_rate=0.1时scale_pos_weight=50的效果。我通常先固定learning_rate=0.1，调优scale_pos_weight，再微调学习率。

计算公式如下：

scale_pos_weight = (total_negative_samples / total_positive_samples) × cost_ratio

其中cost_ratio由业务方确认。例如在信贷审批中，批准一个坏客户（误判）损失1万元，拒绝一个好客户（漏判）损失5千元，则cost_ratio = 10000/5000 = 2。

# 实际项目中的计算脚本 def calculate_scale_pos_weight(y_train, cost_ratio=1.0): n_neg = np.sum(y_train == 0) n_pos = np.sum(y_train == 1) base_ratio = n_neg / n_pos if n_pos > 0 else 1.0 return base_ratio * cost_ratio # 示例：某保险理赔数据，y_train中正样本（骗保）占比0.0023 # n_neg=43210, n_pos=100 → base_ratio=432.1 # 若业务要求漏判成本是误判的3倍 → scale_pos_weight=1296.3 params = { 'objective': 'binary', 'metric': 'binary_logloss', 'scale_pos_weight': 1296.3, # 关键！不是四舍五入成1300 'learning_rate': 0.05, 'num_leaves': 63, 'verbose': -1 }

常见陷阱：很多团队直接用sklearn.utils.class_weight.compute_class_weight算出权重，然后填进scale_pos_weight。这是错的！因为compute_class_weight返回的是类别权重向量，而scale_pos_weight只接受单个浮点数，且其物理意义是梯度缩放系数，不是类别先验概率。我见过最离谱的案例：有人把{0:1.0, 1:432.1}直接塞进scale_pos_weight，导致训练崩溃。

3.3 CatBoost：`class_weights`与`loss_function`的隐式绑定关系

CatBoost的文档对class_weights的描述非常模糊，只说“用于调整各类别损失权重”。但实际源码揭示：class_weights是否生效、如何生效，完全取决于loss_function的类型。

当loss_function='Logloss'（默认）时，class_weights直接作用于交叉熵损失的每一项：loss = -w_i * [y_i * log(p_i) + (1-y_i) * log(1-p_i)]
当loss_function='CrossEntropy'时，CatBoost会先计算标准交叉熵，再乘以class_weights，但此时权重会被归一化处理，实际效果与Logloss不同。
当loss_function='MultiClass'（多分类）时，class_weights必须是长度为n_classes的数组，且索引顺序严格对应classes参数。

最关键的发现是：auto_class_weights='Balanced'的计算逻辑与LightGBM不同。CatBoost的公式是：

weight_class_i = total_samples / (n_classes * samples_in_class_i)

而LightGBM是total_negative / total_positive。这意味着在二分类中，CatBoost的“Balanced”权重是LightGBM的2倍（因为n_classes=2）。例如正样本占比0.01，CatBoost自动设为1/(2*0.01)=50，而LightGBM是0.99/0.01=99。

# 正确用法示例：明确指定loss_function以确保class_weights生效 model = CatBoostClassifier( loss_function='Logloss', # 必须显式声明 class_weights={0: 1, 1: 99}, # 手动设置，比auto更可控 # auto_class_weights='Balanced', # 不推荐，逻辑不透明 iterations=1000, learning_rate=0.03, depth=8, verbose=100 ) # 验证权重是否生效：检查模型内部属性 print("Actual class weights used:", model.get_params()['class_weights'])

实操心得：在某电信客户流失预测项目中，用auto_class_weights='Balanced'时，模型在验证集Recall为61%；改为手动设置{0:1, 1:120}（根据业务成本比计算）后，Recall升至74%，且KS值从0.42提升到0.58。关键技巧是：永远用get_params()检查实际生效的权重值，而不是相信参数名。

4. 完整实操流程：从数据加载到线上部署的端到端复现

4.1 数据准备与探索性分析（EDA）的关键动作

处理不平衡前，必须完成三项不可跳过的EDA动作：

少数类样本的时空分布检验
用pandas.DataFrame.groupby()按时间窗口（如小时/天）统计正样本数量，绘制折线图。如果出现明显周期性（如每周五下午集中爆发），说明存在未捕获的时间特征，需构造hour_of_day、day_of_week等衍生特征。
少数类在特征空间的密度热力图
对连续特征，用seaborn.kdeplot()分别绘制正负样本的核密度估计曲线。如果正样本曲线极度尖锐（带宽很小），说明其分布高度集中，适合用SMOTE；如果平缓弥散，则需ADASYN或GAN生成。
特征缺失值与正样本的关联性分析
计算每个特征的缺失率，再按y==1分组统计缺失率差异。例如某金融数据中，“工作单位电话”缺失率在正样本中达82%，负样本仅15%，这说明该特征本身就是一个强信号，应单独编码为二元特征（has_work_phone）。

# EDA核心代码片段 import seaborn as sns import matplotlib.pyplot as plt # 1. 时间分布检验 df['hour'] = pd.to_datetime(df['timestamp']).dt.hour pos_by_hour = df[df['label']==1].groupby('hour').size() plt.figure(figsize=(10,4)) plt.subplot(1,2,1) pos_by_hour.plot(kind='bar') plt.title('Positive Samples by Hour') # 2. 密度热力图 plt.subplot(1,2,2) sns.kdeplot(data=df[df['label']==0], x='feature_a', label='Negative') sns.kdeplot(data=df[df['label']==1], x='feature_a', label='Positive') plt.legend() plt.title('Density of feature_a') # 3. 缺失值关联分析 missing_stats = df.isnull().groupby(df['label']).mean() print("Missing rate by label:\n", missing_stats.T)

4.2 特征工程：专为不平衡设计的三步法

第一步：构造“不平衡感知”特征
不是所有特征都平等。对每个数值特征，计算其在正负样本中的均值差异比率：
diff_ratio = |mean_pos - mean_neg| / (mean_pos + mean_neg)
筛选diff_ratio > 0.3的特征，这些是真正携带判别信息的“高价值特征”。

第二步：对多数类做聚类降维
用KMeans对多数类样本聚类（k=5~10），将每个样本映射到最近簇中心的距离作为新特征dist_to_majority_cluster。这能帮助模型识别“远离多数类中心”的异常点。

第三步：少数类样本的邻域特征
对每个少数类样本，用KDTree搜索其5个最近邻（不限正负），统计其中正样本占比pos_neighbor_ratio。这个特征直接量化了“该少数类是否孤立”，在欺诈检测中效果极佳。

from sklearn.cluster import KMeans from sklearn.neighbors import NearestNeighbors # 多数类聚类 majority_data = X_train[y_train==0] kmeans = KMeans(n_clusters=8, random_state=42) kmeans.fit(majority_data) dist_to_cluster = kmeans.transform(majority_data).min(axis=1) # 少数类邻域特征 minority_data = X_train[y_train==1] nn = NearestNeighbors(n_neighbors=5) nn.fit(X_train) distances, indices = nn.kneighbors(minority_data) pos_neighbor_ratio = [] for idx_list in indices: pos_count = np.sum(y_train[idx_list] == 1) pos_neighbor_ratio.append(pos_count / 5)

4.3 模型训练与超参优化的实战配置

TensorFlow配置要点：

class_weight必须用compute_class_weight精确计算，不能手算
使用tf.keras.callbacks.EarlyStopping时，monitor设为'val_recall'而非'val_loss'
学习率调度用ReduceLROnPlateau，monitor='val_f1_score'

from sklearn.utils.class_weight import compute_class_weight # 精确计算class_weight class_weights = compute_class_weight( class_weight='balanced', classes=np.unique(y_train), y=y_train ) class_weight_dict = dict(enumerate(class_weights)) # 自定义F1回调（TensorFlow 2.x） class F1ScoreCallback(tf.keras.callbacks.Callback): def on_epoch_end(self, epoch, logs=None): y_pred = (self.model.predict(X_val) > 0.5).astype(int) f1 = f1_score(y_val, y_pred) print(f' - val_f1_score: {f1:.4f}') model.fit( X_train, y_train, class_weight=class_weight_dict, validation_data=(X_val, y_val), callbacks=[ tf.keras.callbacks.EarlyStopping(patience=15, monitor='val_recall'), tf.keras.callbacks.ReduceLROnPlateau(factor=0.5, patience=5, monitor='val_f1_score'), F1ScoreCallback() ] )

LightGBM配置要点：

scale_pos_weight必须保留3位小数，避免整数截断
启用is_unbalance=False（禁用自动平衡），完全由scale_pos_weight控制
bagging_freq=5和bagging_fraction=0.8能有效缓解过拟合

CatBoost配置要点：

eval_metric='Recall'（而非默认的'Logloss'）
od_type='Iter'和od_wait=50开启迭代早停
cat_features必须显式声明类别型特征索引

4.4 评估与校准：超越AUC的七维评估矩阵

上线前必须跑满以下7个指标，缺一不可：

指标	计算方式	业务意义	合格线
Recall@Top1%	取预测概率最高1%的样本，其中正样本占比	资源有限时的精准打击能力	≥85%
Precision@Recall=0.7	调整阈值使Recall=0.7时的Precision	满足业务最低召回要求时的误杀率	≥60%
KS Statistic	max(	TPR-FPR	)
H-Measure	2×Precision×Recall/(Precision+Recall)	综合性能平衡指标	≥0.65
Brier Score	mean((pred_prob - true_label)²)	概率校准质量	≤0.1
Top-K Hit Rate	前K个预测中真实正例数量/K	排序场景的核心指标	K=100时≥45%
Business Cost	Σ(cost_false_neg × FN + cost_false_pos × FP)	真实业务损益	最小化

# 七维评估核心代码 from sklearn.metrics import recall_score, precision_score, roc_curve, auc, brier_score_loss def comprehensive_eval(y_true, y_pred_proba, cost_fn=1000, cost_fp=200): y_pred_binary = (y_pred_proba > 0.5).astype(int) # Recall@Top1% top1p_idx = np.argsort(y_pred_proba)[::-1][:int(0.01*len(y_true))] recall_top1p = np.mean(y_true[top1p_idx]) # Precision@Recall=0.7 fpr, tpr, thresholds = roc_curve(y_true, y_pred_proba) recall_70_idx = np.argmin(np.abs(tpr - 0.7)) prec_at_rec70 = precision_score(y_true, y_pred_proba > thresholds[recall_70_idx]) # KS ks = max(tpr - fpr) # H-Measure h_measure = 2 * (prec_at_rec70 * 0.7) / (prec_at_rec70 + 0.7) # Brier Score brier = brier_score_loss(y_true, y_pred_proba) # Business Cost fn = np.sum((y_true==1) & (y_pred_binary==0)) fp = np.sum((y_true==0) & (y_pred_binary==1)) business_cost = fn * cost_fn + fp * cost_fp return { 'Recall@Top1%': recall_top1p, 'Precision@Recall=0.7': prec_at_rec70, 'KS': ks, 'H-Measure': h_measure, 'Brier Score': brier, 'Business Cost': business_cost } results = comprehensive_eval(y_test, y_pred_proba) print(pd.DataFrame([results]))

5. 常见问题与排查技巧实录：血泪教训总结

5.1 “模型在验证集表现很好，但线上效果断崖下跌”——数据漂移的隐形杀手

这是最痛的坑。表面看验证集Recall 0.75，线上却只有0.32。根本原因往往是验证集构建方式错误：

错误做法：用train_test_split(random_state=42)随机切分
正确做法：按时间排序，取最后20%作为验证集（time-based split）

因为真实业务数据具有强时间依赖性。我在某电商实时推荐项目中，随机切分时AUC=0.91，但按时间切分后AUC骤降至0.73——因为新用户行为模式与老用户完全不同，而随机切分把新老用户混在一起，虚假抬高了指标。

# 正确的时间切分代码 df_sorted = df.sort_values('timestamp') split_idx = int(0.8 * len(df_sorted)) X_train_time, X_val_time = df_sorted.iloc[:split_idx], df_sorted.iloc[split_idx:] # 注意：必须用iloc，不能用loc，避免索引混乱

5.2 “过采样后模型过拟合，验证集指标飙升但测试集崩盘”——SMOTE的三大禁忌

SMOTE不是银弹，滥用必死。三大禁忌：

禁忌一：在标准化前使用SMOTE
SMOTE基于欧氏距离，如果特征量纲差异巨大（如年龄0-100 vs 收入0-1000000），生成的样本会全部挤在高量纲特征方向。必须先StandardScaler再SMOTE。
禁忌二：对含时间序列特征的数据用SMOTE
某金融项目中，对“过去7天交易次数”做SMOTE，生成了“过去7天交易次数=3.7”这种不可能值，导致模型学到虚假模式。
禁忌三：在交叉验证内做SMOTE
如果在cross_val_score内部调用SMOTE，会导致验证折中的样本泄露到训练折。必须用imblearn.pipeline.Pipeline封装。

from imblearn.pipeline import Pipeline from imblearn.over_sampling import SMOTE from sklearn.preprocessing import StandardScaler # 正确的Pipeline用法 pipeline = Pipeline([ ('scaler', StandardScaler()), ('smote', SMOTE(random_state=42)), ('classifier', LogisticRegression()) ]) # 在CV中安全使用 scores = cross_val_score(pipeline, X, y, cv=5, scoring='f1')

5.3 “CatBoost训练速度慢得无法忍受”——五个立竿见影的加速技巧

CatBoost默认配置在大数据集上极慢。实测有效的加速技巧：

task_type='GPU'必须配合devices='0:1'（指定GPU编号），否则可能fallback到CPU
bootstrap_type='Bernoulli'比默认的'Poisson'快3倍，且对不平衡数据更鲁棒
subsample=0.8开启行采样，牺牲极小精度换取显著提速
rsm=0.95降低列采样率（rsm=1.0时最慢）
max_depth=6比max_depth=10快5倍，且在多数不平衡场景下精度损失<0.005

model = CatBoostClassifier( task_type='GPU', devices='0:1', bootstrap_type='Bernoulli', subsample=0.8, rsm=0.95, max_depth=6, learning_rate=0.05, iterations=1000 )

5.4 “LightGBM的scale_pos_weight调得越高，Recall反而越低”——梯度爆炸的真相

当scale_pos_weight设得过大（如>1000），LightGBM会出现梯度爆炸，表现为：

训练loss在前几轮剧烈震荡
feature_importance中少数类相关特征重要性暴跌
验证集Recall不升反降

解决方案：用min_data_in_leaf和min_sum_hessian_in_leaf双重约束。这两个参数限制了叶子节点的最小样本数和最小Hessian和，能有效抑制梯度爆炸。

params = { 'scale_pos_weight': 1296.3, 'min_data_in_leaf': 50, # 原默认值20，提高到50 'min_sum_hessian_in_leaf': 100.0, # 原默认值1e-3，提高到100 'num_leaves': 63, 'learning_rate': 0.03 }

5.5 “TensorFlow模型输出概率全是0.99或0.01，无法做阈值决策”——校准失效的终极解法

当模型概率校准失效（Brier Score > 0.2），传统Platt Scaling效果差。我的终极解法是分段线性校准（Piecewise Linear Calibration）：

将预测概率按0.1为间隔分桶（0.0-0.1, 0.1-0.2, ..., 0.9-1.0）
对每个桶，计算真实正样本占比（empirical probability）
用线性插值连接各桶中点，构建校准曲线

from sklearn.calibration import CalibratedClassifierCV # 分段线性校准实现 def piecewise_linear_calibrate(y_pred_proba, y_true, n_bins=10): bins = np.linspace(0, 1, n_bins+1) bin_centers = (bins[:-1] + bins[1:]) / 2 empirical_probs = [] for i in range(n_bins): mask = (y_pred_proba >= bins[i]) & (y_pred_proba < bins[i+1]) if np.sum(mask) > 0: emp_prob = np.mean(y_true[mask]) else: emp_prob = bin_centers[i] # 无样本时用中心值 empirical_probs.append(emp_prob) # 线性插值 from scipy.interpolate import interp1d calibrator = interp1d(bin_centers, empirical_probs, kind='linear', fill_value='extrapolate') return calibrator(y_pred_proba) # 使用 y_calibrated = piecewise_linear_calibrate(y_pred_proba, y_test)