当前位置：首页 > news >正文

F1 Score在不平衡数据中的误用陷阱与业务导向评估替代方案

news 2026/6/16 22:01:44

1. 项目概述：为什么F1 Score在不平衡数据上常被误用，以及它真正适合什么场景

F1 Score是分类任务中一个被高频提及、高频误用的指标。我第一次在实际项目中踩坑，是在做电商售后工单自动归类时——模型在测试集上F1达到0.82，业务方看了直呼“效果很好”，结果上线后发现，95%的“高优先级投诉”工单依然被漏判。后来回溯才发现，正样本（投诉类）只占全部工单的0.7%，而模型几乎全盘预测为“非投诉”，F1却因为对“多数类”的高召回和高精确率虚高。这件事让我花了整整三周重新梳理评估逻辑。F1 Score本质是精确率（Precision）与召回率（Recall）的调和平均，它强制要求两个指标必须同时高才有意义。但现实中，绝大多数不平衡场景（如金融欺诈检测、设备故障预警、罕见病筛查、广告点击预估）的核心诉求根本不是“两者兼顾”，而是对少数类的识别能力是否可靠——你宁可多抓几个疑似欺诈交易（降低Precision），也不能放过一个真实欺诈（必须保Recall）；你宁可把几台正常设备标为“可能故障”（降低Precision），也不能让一台真要宕机的设备逃过监控（必须保Recall）。F1恰恰掩盖了这种权衡：它把Precision和Recall同等加权，却无视业务代价的不对称性。更隐蔽的问题在于，F1对类别分布极度敏感——当负样本占比从90%升到99.5%，F1值可能仅下降0.03，但业务损失已翻倍。这不是数学缺陷，而是指标与目标错配。本文不否定F1的价值，而是明确它的适用边界：它只在两类代价接近、且业务目标明确要求“不漏抓也不乱抓”的平衡或轻度不平衡场景中成立，比如客服对话情绪分类（积极/消极比例约4:6）、邮件垃圾标签初筛（垃圾/正常约1:3）。一旦正样本低于5%，尤其低于1%，F1就该退场。接下来我会从底层原理、实操陷阱、替代方案到真实产线决策链，一层层拆解为什么“别盲目用F1”，以及当你面对一个新不平衡数据集时，该按什么顺序选指标、调参数、做验证。

2. 核心原理与设计逻辑：F1 Score的数学结构如何天然排斥严重不平衡场景

2.1 F1 Score的定义与计算路径：一个被过度简化的公式

F1 Score的公式看似简单：
$$ F1 = 2 \times \frac{Precision \times Recall}{Precision + Recall} $$
其中
$$ Precision = \frac{TP}{TP + FP}, \quad Recall = \frac{TP}{TP + FN} $$
但这个简洁背后藏着三个关键假设，而它们在严重不平衡数据中几乎全部失效：

第一，隐含的“FP与FN代价对等”假设。
F1将Precision（误报成本）和Recall（漏报成本）放在同一权重下优化。但在欺诈检测中，一个FP可能只是人工复核5分钟，而一个FN可能导致数万元资金损失；在医疗筛查中，一个FP带来的是额外检查成本，一个FN却是错过黄金治疗期。F1强行让二者“扯平”，等于默认业务方愿意为减少1个漏报，接受任意数量的误报——这显然违背现实。

第二，“TP主导分母”的稳定性假设。
F1的分母是$TP + FP$和$TP + FN$，分子是$TP$。当负样本（N）极大时，FP和FN的绝对值可能相差不大，但相对影响天差地别。举个极端例子：数据集共10,000条，正样本100条（1%），负样本9,900条。模型A预测TP=80, FP=200, FN=20；模型B预测TP=70, FP=50, FN=30。

A的Precision = 80/(80+200) ≈ 0.286，Recall = 80/(80+20) = 0.8 → F1 ≈ 0.41
B的Precision = 70/(70+50) ≈ 0.583，Recall = 70/(70+30) = 0.7 → F1 ≈ 0.63
F1认为B远优于A。但业务视角呢？A漏了20个正样本（漏报率20%），B漏了30个（漏报率30%）——B的漏报更多，却因FP少而F1更高。F1在这里奖励了“少犯错”，却惩罚了“少漏判”，完全倒置了业务优先级。

第三，“阈值固定”的静态评估假设。
F1默认使用模型输出的默认阈值（通常是0.5）。但不平衡数据中，最优阈值往往远低于0.5。比如在正样本1%的数据上，逻辑回归输出概率>0.5的样本可能不到0.1%，导致Recall趋近于0。此时F1≈0，但这不反映模型能力差，只反映阈值没调。而F1本身不提供阈值搜索机制，它只是一个点值，无法揭示模型在不同严格程度下的表现弹性。

提示：F1是一个单点指标（point metric），不是曲线指标（curve metric）。它像一张快照，而业务需要的是整段录像——即模型在不同误报容忍度下的漏报控制能力。

2.2 与混淆矩阵的深度绑定：为什么F1无法脱离TP/FP/FN看问题

F1的所有信息都压缩在混淆矩阵的四个格子中，但它对FP和FN的处理是“无差别计数”。我们来拆解一个真实产线案例：某工业传感器故障预警系统，数据集10万条，故障样本（正类）仅327条（0.327%）。工程师用XGBoost训练后，报告F1=0.61。乍看不错，但混淆矩阵显示：

TP = 198（正确预警）
FP = 1,243（误报，触发1243次不必要的停机检查）
FN = 129（漏报，129次真实故障未预警）
TN = 98,430（正确判断正常）

计算得：Precision = 198/(198+1243) ≈ 0.138，Recall = 198/(198+129) ≈ 0.606，F1 ≈ 0.227？等等，这和报告的0.61矛盾？原因在于——他们用了宏平均F1（macro-F1），而非微平均F1（micro-F1）或加权F1（weighted-F1）。宏平均对每个类别单独算F1再平均，这里正类F1≈0.227，负类F1≈0.999，平均≈0.613。这彻底掩盖了正类性能的灾难性。F1家族有三种平均方式，而默认scikit-learn的f1_score()在多分类时用macro，二分类时用binary——但很多工程师根本没意识到自己用的是哪个，更没想过macro在不平衡下会美化结果。

注意：在二分类不平衡场景，必须显式指定average='binary'，否则可能因库版本差异或代码上下文误用macro，导致指标失真。这是产线最常被忽略的配置陷阱。

2.3 F1与ROC/AUC的本质冲突：一个追求“点”，一个描绘“面”

F1关注单一阈值下的平衡点，而ROC曲线（Receiver Operating Characteristic）关注整个阈值范围内的Trade-off。AUC（Area Under Curve）是ROC曲线下面积，它衡量模型区分正负样本的能力，与具体阈值无关。在正样本极少时，AUC仍能稳定反映模型排序能力。例如，上述故障预警模型，若其AUC=0.92，说明模型能很好地区分“可能故障”和“大概率正常”的传感器，只是阈值没设好；而F1=0.227只告诉你“当前阈值下效果差”，却不告诉你“调阈值能否变好”。我们实测过：同一模型，在正样本0.3%的数据上，F1随阈值变化呈尖峰状——阈值0.1时F1=0.35，0.2时F1=0.41，0.3时F1=0.22，峰值仅0.41；而AUC恒为0.92。这意味着，F1的“最高值”并不能代表模型上限，它只是某个狭窄阈值区间的局部最优。业务决策需要的是“如果我能接受每天5次误报，漏报率能压到多少？”——这只能从ROC曲线读出，F1给不了。

3. 实操陷阱与避坑指南：从数据探索到模型部署的7个致命误区

3.1 误区一：用F1作为唯一验证指标，跳过数据分布探查

这是新手最常犯的错误。我见过三个团队，在没画正负样本分布图前就直接跑模型、报F1。结果无一例外：F1>0.7，但上线后业务方投诉“根本不管用”。根源在于，他们没发现数据存在隐藏的分布偏移。比如某信贷审批模型，训练集正样本（坏账）占比1.2%，但线上新客中，某地域群体坏账率突然升至8%。F1在训练集上0.75，到了该群体直接跌到0.32。正确做法是：在建模前，必须做三件事：

计算并报告各类别占比：不只是整体比例，还要按时间、地域、渠道等维度切片统计，识别潜在偏移源；
绘制正负样本的关键特征分布直方图：比如逾期天数、收入负债比，看正负样本是否在某些区间严重重叠（意味着模型难区分）；
计算PSI（Population Stability Index）：量化训练集与验证集分布差异，PSI>0.25即需警惕。

实操心得：我习惯用pandas-profiling（现为ydata-profiling）一键生成数据概览报告，它会自动标出类别不平衡度、特征缺失率、分布偏移提示。比手动写value_counts()高效十倍，且不易遗漏。

3.2 误区二：盲目采样后直接用F1评估，忽视采样引入的偏差

为提升F1，很多人第一反应是“上SMOTE过采样”或“随机欠采样”。但采样本身会扭曲数据的真实分布，进而让F1失去业务意义。SMOTE在特征空间插值生成新正样本，但这些样本可能落在真实业务不可能出现的区域。比如在设备温度-振动二维空间，真实故障点集中在高温高振区，SMOTE却在低温低振区造出“故障样本”，模型学会识别这些伪模式，F1虚高，但线上完全失效。我们做过对照实验：同一数据集，

原始数据：F1=0.38，Recall=0.42
SMOTE后：F1=0.65，Recall=0.78
但线上A/B测试：SMOTE模型漏报率反升12%，因为其预测的“高风险”设备，83%在后续一周内未发生故障。

正确策略是：采样只用于训练，评估必须在原始分布的验证集上进行。更优解是放弃采样，改用代价敏感学习（Cost-Sensitive Learning）：在XGBoost中设置scale_pos_weight = len(negative)/len(positive)，让模型在训练时就感知正负样本的代价差异，而不是伪造数据。

3.3 误区三：用F1指导超参搜索，导致模型向“假平衡”妥协

很多自动化调参工具（如Optuna、Hyperopt）默认以F1为优化目标。这很危险。F1的优化过程会驱使模型降低阈值以提升Recall，同时增加FP来“凑”Precision，最终找到一个F1最高的点，但该点的FP数量可能超出业务承受极限。例如，某反洗钱模型，F1最优阈值=0.08，日均FP=2,400次，而合规部门要求FP≤300次。此时F1最优解完全不可用。超参搜索的目标函数必须与业务约束对齐。我们的做法是：

定义约束优化目标：最大化Recall，约束条件为FP ≤ 300；
或使用复合指标：Custom_Score = Recall - λ × max(0, FP - 300)，λ为惩罚系数。
这样搜出来的模型，Recall可能略低0.02，但FP严格卡在298，业务方可直接上线。

3.4 误区四：忽略阈值选择的业务语义，用F1“倒推”阈值

工程师常做“F1-Threshold曲线”，取F1最大值对应的阈值。但这个阈值没有业务含义。比如，阈值0.15对应日均FP=1,200，而业务能接受的FP上限是500。此时应先定业务约束（FP≤500），再在此约束下找Recall最高的阈值。我们开发了一个小工具：输入验证集预测概率和标签，输出“FP约束表”——列出FP从100到2000（步长100）时，对应的最大Recall及阈值。业务方一眼就能看到：“要控FP在500以内，Recall最多做到0.63，阈值需设0.22”。这比“F1最高点阈值0.18”有用十倍。

3.5 误区五：在多分类不平衡中滥用macro-F1，掩盖关键类别失效

Macro-F1对每个类别独立计算F1再平均，正负样本极度不平衡时，少数类F1极低，但多数类F1接近1，平均值仍可观。这在客服工单分类中尤为致命：工单类型有“咨询”（85%）、“投诉”（8%）、“紧急故障”（5%）、“法律风险”（2%）。若模型把所有“法律风险”全判错（Recall=0），macro-F1可能仍有0.82，但法务部已收到3起监管问询。必须按业务重要性加权：

为“法律风险”赋予权重5.0（因其代价最高），
“紧急故障”权重3.0，
“投诉”权重2.0，
“咨询”权重1.0，
再计算加权F1。这样，漏判一个法律风险，扣分是漏判一个咨询的5倍，指标才真正反映业务风险。

3.6 误区六：用F1比较不同模型，却未控制变量（如阈值、采样）

我审过一份模型对比报告，结论是“LightGBM比CatBoost F1高0.05，推荐LightGBM”。但细看发现：LightGBM用了SMOTE+阈值0.1，CatBoost用原始数据+阈值0.5。这根本不是模型能力对比，而是“数据处理+阈值”组合的对比。公平比较的铁律是：除模型算法外，其他所有环节必须一致。包括：

训练/验证/测试集划分方式（必须用时间序列分割，而非随机）；
特征工程流程（缩放、编码、缺失值填充）；
是否采样及采样方法；
阈值选择策略（统一用业务约束法，而非F1最大化）。
我们内部规定：任何模型对比报告，必须附带“控制变量清单”，由另一名工程师签字确认。

3.7 误区七：上线后只监控F1，忽略业务指标漂移

模型上线后，F1可能稳定在0.65，但业务指标（如投诉率、故障停机时长）却持续恶化。这是因为F1不反映预测结果的实际业务影响。例如，模型将“高价值客户投诉”误判为“普通咨询”，F1只扣1分，但公司可能因此流失一个年消费50万的客户。必须建立三层监控体系：

技术层：F1、AUC、KS等传统指标（基线）；
业务层：关键业务结果，如“预测为投诉的工单中，实际升级为VIP投诉的比例”；
归因层：对误判样本做根因分析，如“87%的漏判投诉，集中出现在新上线的APP版本V3.2中”，指向数据采集bug。
我们用Prometheus+Grafana搭建实时看板，业务层指标告警阈值比技术层严格5倍——F1降0.02不告警，但“VIP投诉漏判率”超15%立即触发P0事件。

4. 替代方案与实战选型：根据业务目标匹配最合适的评估指标

4.1 业务目标驱动的指标决策树：5步锁定你的核心指标

面对一个新不平衡项目，我用这套决策树快速定位指标：
第一步：明确业务核心痛点是什么？

是“不能漏掉任何一个高危事件”？→ 优先保Recall，盯Recall@FP_Constraint（如Recall@FP≤100）；
是“误报太多导致人力瘫痪”？→ 优先控FP，盯Precision@Recall_Constraint（如Precision@Recall≥0.9）；
是“综合成本最低”？→ 定义业务成本函数，如Cost = 100×FN + 5×FP，优化Cost最小化。

第二步：确定可接受的误报上限（FP Cap）？
这必须由业务方拍板，而非工程师估算。我们要求业务方给出具体数字：“每天最多允许XX次误报”，并书面确认。没有FP Cap，一切指标优化都是空中楼阁。

第三步：检查数据是否满足“正样本可定义”？
有些场景正样本模糊，如“用户可能流失”。此时F1、Recall等硬指标失效，应转向排序指标：NDCG（Normalized Discounted Cumulative Gain），它评估模型对“高风险用户”的排序质量，不依赖绝对阈值。

第四步：验证集是否代表线上分布？
用PSI和KS检验。若PSI>0.25，指标参考价值大打折扣，需先解决数据漂移。

第五步：选择最终指标并固化流程
选定后，将其写入《模型交付清单》，作为上线准入的硬性门槛。例如：“反欺诈模型上线必备：Recall@FP≤50 ≥ 0.75，且过去7天滚动AUC ≥ 0.85”。

4.2 关键替代指标详解：从计算到业务解读

Precision-Recall曲线（PR Curve）：F1的真正进化版

PR曲线以Recall为横轴、Precision为纵轴，绘制不同阈值下的点。它比ROC更适合不平衡数据，因为其坐标轴直接关联业务关切。PR曲线下面积（AUPRC）越接近1，模型在高Recall下保持高Precision的能力越强。计算时，sklearn提供average_precision_score，它等价于AUPRC。我们要求：AUPRC < 0.4的模型，不进入业务评审；>0.65才考虑上线。AUPRC=0.5意味着模型不比随机猜测好——这比F1=0.5的警示更直观。

Matthews相关系数（MCC）：唯一考虑所有混淆矩阵格子的单点指标

MCC公式为：
$$ MCC = \frac{TP \times TN - FP \times FN}{\sqrt{(TP+FP)(TP+FN)(TN+FP)(TN+FN)}} $$
它取值[-1,1]，1为完美预测，0为随机，-1为完全错误。MCC的优势在于：它天然惩罚FP和FN，且对类别不平衡鲁棒。在正样本0.3%的故障预警数据上，MCC=0.32，而F1=0.227，MCC值更高且更稳定——因为MCC利用了TN（98,430）的巨大基数，抑制了FP/FN的小幅波动影响。我们把它作为F1的“稳健备选”，当业务方坚持要一个单点指标时，首选MCC。

Brier Score：校准性指标，解决“概率不准”问题

F1只关心分类结果，不关心预测概率是否可信。Brier Score衡量预测概率与真实标签的均方误差：
$$ BS = \frac{1}{N}\sum_{i=1}^{N}(p_i - y_i)^2 $$
其中$p_i$是预测为正的概率，$y_i$是0/1标签。BS越小，概率越准。在保险定价模型中，BS>0.1的模型，其“高风险客户”概率预测可能严重失真，导致定价策略失效。我们要求：BS必须<0.08，且通过可靠性图（Reliability Diagram）可视化验证——图中点越贴近对角线，校准越好。

Cost Curve：直接映射业务成本的终极指标

Cost Curve以“误报代价/漏报代价比”（c = Cost_FP / Cost_FN）为横轴，以“标准化总成本”为纵轴。它直接回答：“当漏报代价是误报的10倍时，我的模型总成本是多少？”计算需业务方提供成本比。我们曾用Cost Curve说服风控总监：将模型阈值从0.2降到0.15，虽FP增300次/天，但因Cost_FP/Cost_FN=1/50，总成本反而下降17%。这是F1永远无法提供的决策依据。

4.3 工具链实操：用Python代码实现全流程评估

以下是我们生产环境的标准评估脚本核心片段，已脱敏：

import numpy as np import pandas as pd from sklearn.metrics import (precision_recall_curve, auc, matthews_corrcoef, brier_score_loss) from sklearn.calibration import calibration_curve import matplotlib.pyplot as plt def comprehensive_eval(y_true, y_proba, fp_cap=100, cost_ratio=0.02): """ 全面评估函数：输出业务关键指标 :param y_true: 真实标签 :param y_proba: 预测概率 :param fp_cap: 误报上限（绝对数值） :param cost_ratio: FP代价/ FN代价比 """ # 1. PR Curve & AUPRC precision, recall, _ = precision_recall_curve(y_true, y_proba) auprc = auc(recall, precision) # 2. Find best threshold under FP constraint # Sort predictions by probability descending sorted_idx = np.argsort(y_proba)[::-1] cum_fp = np.cumsum(1 - y_true[sorted_idx]) # FP count at each threshold valid_mask = cum_fp <= fp_cap if np.any(valid_mask): max_recall_idx = np.argmax(recall[valid_mask]) best_recall = recall[valid_mask][max_recall_idx] best_prec = precision[valid_mask][max_recall_idx] else: best_recall = best_prec = 0 # 3. MCC and Brier Score y_pred = (y_proba >= 0.5).astype(int) mcc = matthews_corrcoef(y_true, y_pred) brier = brier_score_loss(y_true, y_proba) # 4. Cost Curve calculation (simplified) # Assume cost_fn = 1, cost_fp = cost_ratio thresholds = np.arange(0.01, 1.0, 0.01) costs = [] for th in thresholds: y_pred_th = (y_proba >= th).astype(int) fp_count = np.sum((y_pred_th == 1) & (y_true == 0)) fn_count = np.sum((y_pred_th == 0) & (y_true == 1)) total_cost = cost_ratio * fp_count + 1 * fn_count costs.append(total_cost) return { 'AUPRC': round(auprc, 3), f'Recall@FP≤{fp_cap}': round(best_recall, 3), f'Precision@FP≤{fp_cap}': round(best_prec, 3), 'MCC': round(mcc, 3), 'Brier_Score': round(brier, 3), 'Min_Cost': round(min(costs), 0) } # 使用示例 results = comprehensive_eval(y_test, y_pred_proba, fp_cap=50, cost_ratio=0.01) print(pd.DataFrame([results]))

这段代码输出的不是单个F1，而是一张业务决策表。我们把它集成进CI/CD流水线，每次模型更新，自动跑此脚本，结果直送企业微信机器人，业务方和工程师同步收到：“新模型Recall@FP≤50提升至0.71（+0.04），MCC提升至0.41（+0.03），建议上线”。

5. 真实产线案例复盘：从F1幻觉到业务价值落地的完整闭环

5.1 案例背景：某省级电网的配变故障预警系统

项目目标：提前24小时预警配电变压器过载故障，避免烧毁。数据特点：

总样本：210万条（每台变压器每日一条记录）
正样本（24小时内故障）：仅1,842条（0.088%）
关键约束：运维人力有限，每日最多处理30次预警（即FP≤30）

初始方案：工程师用SMOTE过采样，XGBoost训练，报告F1=0.52，团队通过评审。上线首周，FP=287次（超限8.6倍），运维电话被打爆，项目被叫停。

5.2 问题诊断：F1指标如何掩盖了四大深层缺陷

我们介入后，用前述框架逐层排查：
缺陷一：数据探查缺失
原始报告没提地域分布。我们切片发现：故障样本中72%来自沿海台风区，而训练集台风区样本仅占35%。PSI达0.38，模型在台风区泛化极差。

缺陷二：采样扭曲业务逻辑
SMOTE生成的“故障样本”，其油温特征集中在85-90℃，但真实故障多发于105-110℃（绝缘油临界点）。模型学到了错误的温度阈值。

缺陷三：阈值选择无业务锚点
F1最优阈值=0.03，对应FP=287；但业务要求FP≤30，需阈值≥0.18，此时Recall仅0.21。

缺陷四：指标未对齐成本
一次FP是运维人员现场核查1小时（成本≈200元），一次FN是变压器烧毁（成本≈15万元）。成本比=200/150000≈0.0013，而原方案完全未考虑。

5.3 重构方案：以业务约束为起点的四步重建

第一步：数据重治理

按地域、季节分层抽样，确保台风区样本占比≥65%；
引入物理约束：剔除油温>115℃的样本（设备已损坏，不属预警范畴）；
放弃SMOTE，改用XGBoost的scale_pos_weight=11300（210万/1842）。

第二步：指标重定义

主指标：Recall@FP≤30（业务硬约束）；
辅助指标：AUPRC（>0.35）、MCC（>0.25）、Brier Score（<0.05）；
成本指标：Expected_Cost = 200×FP + 150000×FN，目标最小化。

第三步：阈值精调
用comprehensive_eval脚本扫描阈值0.05~0.3，找到Recall@FP≤30最高的点：阈值=0.22，Recall=0.48，FP=29。

第四步：模型解释增强
用SHAP分析，发现模型最依赖“过去3小时负载增长率”和“当前油温-环境温差”，而非单一油温。运维反馈：“这符合老师傅经验，我们以后重点盯这两个指标”。

5.4 效果验证：从指标提升到业务价值的转化

上线三个月后数据：

指标	旧方案	新方案	提升
Recall@FP≤30	0.21	0.48	+129%
平均预警提前时长	8.2h	19.7h	+140%
故障烧毁数（月）	4.3	1.1	-74%
运维人力占用（人时/日）	287	29	-90%

最关键的是，运维班组主动提出：“把预警阈值从30放宽到50，我们能多救几台”。这标志着，模型已从“负担”变成“可信工具”。而这一切的起点，就是扔掉了那个看似光鲜的F1=0.52。

6. 经验总结与行动清单：给每一位不平衡数据实践者的硬核建议

F1 Score不是坏指标，它是被放在了错误的战场。就像一把精准的手术刀，不该用来砍柴。我在过去八年处理的47个不平衡项目中，总结出三条铁律：
第一，指标选择权必须交还业务方。工程师可以解释F1、AUPRC、MCC的数学含义，但“能接受多少次误报”、“漏判一次的代价是多少”，必须由业务方签字确认。我们有一份《业务指标确认书》模板，包含FP上限、FN代价、时间窗口等12项条款，无此项确认，模型不得进入开发阶段。

第二，永远先画图，再算数。在敲下第一行from sklearn.metrics import f1_score之前，必须完成：

类别分布饼图（按主维度切片）；
关键特征的正负样本密度图；
PR曲线和ROC曲线双图对比；
可靠性图（校准性）。
图不会说谎，而数字会伪装。我电脑里有个文件夹叫“骗人的F1”，存着12个F1>0.7但线上失败的案例图谱，每次新人入职，都让他们先看这个文件夹。

第三，把“业务约束”刻进代码基因。不要写model.predict()，要写model.predict_at_fp_cap(fp_cap=30)；不要调参搜F1，要搜minimize_expected_cost。我们封装了business_metrics库，所有模型输出必须调用其evaluate_under_constraint()方法，否则CI失败。

最后分享一个个人体会：刚入行时，我痴迷于刷高F1，觉得那是技术实力的证明；现在我追求的是，当业务方说“今天FP超了3次，但Recall保住了”，我能立刻调出那3次FP的根因报告，并同步推送优化建议。F1是终点，而业务价值是起点——这个认知的转变，花了我三年，踩了够填满一个Excel表的坑。如果你正在为不平衡数据头疼，请记住：不要问“我的F1是多少”，而要问“我的模型，在业务允许的代价下，能帮业务方多守住多少？”答案不在公式里，而在业务方的KPI表格中，在运维人员的值班日志里，在客户投诉的录音里。盯着那些地方，指标自然会浮现。

查看全文

http://www.jsqmd.com/news/1025858/