当前位置：首页 > news >正文

分类模型评估指标实战：Python 3.11 与 Scikit-learn 1.4 下的 6 大指标对比与陷阱分析

news 2026/7/5 5:13:41

分类模型评估指标实战：Python 3.11 与 Scikit-learn 1.4 下的 6 大指标对比与陷阱分析

在机器学习项目的落地过程中，模型评估往往是最容易被忽视却至关重要的环节。许多工程师花费大量时间调参优化，却在最后一步因指标选择不当而功亏一篑。本文将带您深入实战，使用Python 3.11和Scikit-learn 1.4版本，通过完整代码示例揭示分类模型评估中的关键陷阱。

1. 环境准备与数据加载

首先确保您的Python环境已安装最新版Scikit-learn。我们使用内置的乳腺癌数据集作为演示案例，该数据集经典地展示了类别不平衡问题（恶性与良性样本比例约为1:2）。

# Python 3.11+ 环境配置 import sklearn print(f"Scikit-learn版本: {sklearn.__version__}") # 应输出1.4.0+ from sklearn.datasets import load_breast_cancer from sklearn.model_selection import train_test_split # 加载数据集 data = load_breast_cancer() X, y = data.data, data.target feature_names = data.feature_names # 查看类别分布 print(f"良性样本数: {sum(y==0)}") # 212 print(f"恶性样本数: {sum(y==1)}") # 357 # 划分训练测试集 X_train, X_test, y_train, y_test = train_test_split( X, y, test_size=0.3, random_state=42, stratify=y)

注意：这里使用stratify参数确保训练测试集的类别比例与原始数据一致，避免因随机划分加剧样本不平衡问题。

2. 基础评估指标实现

我们首先训练一个简单的逻辑回归模型，然后计算六大核心指标：

from sklearn.linear_model import LogisticRegression from sklearn.metrics import (accuracy_score, precision_score, recall_score, f1_score, roc_auc_score, average_precision_score) # 训练模型 model = LogisticRegression(max_iter=1000, random_state=42) model.fit(X_train, y_train) # 预测结果 y_pred = model.predict(X_test) y_proba = model.predict_proba(X_test)[:, 1] # 正类概率 # 计算指标 metrics = { "Accuracy": accuracy_score(y_test, y_pred), "Precision": precision_score(y_test, y_pred), "Recall": recall_score(y_test, y_pred), "F1": f1_score(y_test, y_pred), "ROC AUC": roc_auc_score(y_test, y_proba), "PR AUC": average_precision_score(y_test, y_proba) } # 输出结果 for name, value in metrics.items(): print(f"{name}: {value:.4f}")

指标解释对照表：

指标名称	数学表达式	适用场景
Accuracy	(TP+TN)/(TP+TN+FP+FN)	平衡数据集
Precision	TP/(TP+FP)	注重预测准确性
Recall	TP/(TP+FN)	注重正类覆盖率
F1	2(PrecisionRecall)/(Precision+Recall)	综合平衡
ROC AUC	曲线下面积	整体排序能力
PR AUC	曲线下面积	不平衡数据

3. 样本不平衡下的指标陷阱

让我们通过构造极端不平衡数据来演示准确率的欺骗性：

import numpy as np from sklearn.dummy import DummyClassifier # 构造99:1的极端不平衡数据 X_imbalanced = np.random.rand(1000, 10) y_imbalanced = np.array([0]*990 + [1]*10) # 仅1%正样本 # 使用简单规则预测 dummy = DummyClassifier(strategy="most_frequent") dummy.fit(X_imbalanced, y_imbalanced) y_dummy = dummy.predict(X_imbalanced) print(f"虚假设准确率: {accuracy_score(y_imbalanced, y_dummy):.4f}") # 0.9900

这个永远预测负类的模型获得了99%的准确率，但实际毫无价值。此时应优先关注召回率和PR曲线：

from sklearn.metrics import precision_recall_curve import matplotlib.pyplot as plt # 模拟真实模型的预测概率 y_proba_imb = np.linspace(0, 1, 1000) # 模拟概率输出 precision, recall, _ = precision_recall_curve(y_imbalanced, y_proba_imb) plt.figure(figsize=(10, 5)) plt.plot(recall, precision) plt.xlabel("Recall") plt.ylabel("Precision") plt.title("PR Curve for Imbalanced Data") plt.show()

4. 阈值选择实战

分类模型输出的概率需要转换为类别标签，默认阈值为0.5，但这不一定是最佳选择：

# 获取不同阈值下的指标 thresholds = np.linspace(0, 1, 101) metrics_by_thresh = [] for thresh in thresholds: y_pred_thresh = (y_proba >= thresh).astype(int) metrics_by_thresh.append({ "Threshold": thresh, "Precision": precision_score(y_test, y_pred_thresh, zero_division=0), "Recall": recall_score(y_test, y_pred_thresh) }) # 转换为DataFrame便于分析 import pandas as pd df_metrics = pd.DataFrame(metrics_by_thresh) df_metrics.plot(x="Threshold", y=["Precision", "Recall"], title="Threshold Tuning") plt.show()

常见阈值选择策略：

业务需求导向：如金融风控偏好高精确率，医疗诊断偏好高召回率
F1最大化：平衡精确率和召回率
Youden指数：最大化TPR-FPR

5. ROC与PR曲线深度解析

Scikit-learn提供了便捷的绘图函数，但我们手动实现以深入理解：

from sklearn.metrics import roc_curve # 计算ROC曲线 fpr, tpr, roc_thresholds = roc_curve(y_test, y_proba) roc_auc = roc_auc_score(y_test, y_proba) # 绘制双曲线 plt.figure(figsize=(12, 5)) plt.subplot(1, 2, 1) plt.plot(fpr, tpr, label=f"ROC Curve (AUC={roc_auc:.2f})") plt.plot([0, 1], [0, 1], 'k--') plt.xlabel("False Positive Rate") plt.ylabel("True Positive Rate") plt.title("ROC Curve") plt.legend() plt.subplot(1, 2, 2) plt.plot(recall, precision, label=f"PR Curve") plt.xlabel("Recall") plt.ylabel("Precision") plt.title("Precision-Recall Curve") plt.legend() plt.tight_layout() plt.show()

关键对比：

曲线类型	X轴	Y轴	适用场景	对不平衡数据的敏感度
ROC	FPR	TPR	整体性能评估	不敏感
PR	Recall	Precision	正类分析	敏感

6. 多分类场景扩展

前述指标可直接扩展到多分类问题，Scikit-learn通过average参数支持：

from sklearn.datasets import load_iris from sklearn.ensemble import RandomForestClassifier # 加载鸢尾花数据集 iris = load_iris() X, y = iris.data, iris.target X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3) # 多分类模型 clf = RandomForestClassifier() clf.fit(X_train, y_train) y_pred = clf.predict(X_test) # 多分类指标计算 print("Macro F1:", f1_score(y_test, y_pred, average="macro")) print("Weighted F1:", f1_score(y_test, y_pred, average="weighted"))

average参数详解：