当前位置：首页 > news >正文

别再只看准确率了！用Python手把手教你计算混淆矩阵、精准率与召回率（附完整代码）

news 2026/7/25 13:09:27

机器学习模型评估实战：从混淆矩阵到精准率与召回率的Python实现

在机器学习项目中，我们常常会遇到这样的情况：模型在测试集上的准确率高达95%，但在实际应用中却表现不佳。比如一个垃圾邮件分类器，虽然整体准确率很高，但却漏掉了大量真正的垃圾邮件（误判为正常邮件），或者把许多正常邮件错误地标记为垃圾邮件。这种表面上的高准确率掩盖了模型在实际场景中的严重缺陷。本文将带你深入理解模型评估的核心指标，并通过Python代码从零实现这些关键指标的计算。

1. 为什么准确率会"说谎"？

准确率（Accuracy）是最直观的模型评估指标，计算公式为：

准确率 = (正确预测数) / (总样本数)

但当数据分布不平衡时，准确率会给出极具误导性的结果。假设我们有一个包含95个正常邮件和5个垃圾邮件的数据集：

如果模型将所有邮件都预测为正常邮件，准确率高达95%
但这种模型对垃圾邮件的识别率为0%，完全无用

这就是为什么我们需要更细致的评估指标——混淆矩阵及其衍生指标。它们能揭示模型在不同类别上的真实表现，特别是在数据不平衡或不同类别错误成本不同的场景下。

在实际业务中，不同类型的错误往往有不同的代价。比如在医疗诊断中，将患病者误诊为健康（假阴性）通常比将健康人误诊为患病（假阳性）后果更严重。

2. 混淆矩阵：模型表现的显微镜

混淆矩阵（Confusion Matrix）是分类模型评估的基础工具，它以矩阵形式展示模型预测结果与真实标签的对应关系。对于二分类问题，混淆矩阵是一个2×2的表格：

预测为正类	预测为负类
实际为正类	TP	FN
实际为负类	FP	TN

TP（True Positive）：正确预测的正样本
FN（False Negative）：错误预测为负的正样本
FP（False Positive）：错误预测为正的负样本
TN（True Negative）：正确预测的负样本

让我们用Python从零实现混淆矩阵的计算：

import numpy as np def confusion_matrix(y_true, y_pred): """ 计算二分类混淆矩阵 参数: y_true -- 真实标签数组 (0或1) y_pred -- 预测标签数组 (0或1) 返回: 2x2 numpy数组形式的混淆矩阵 [[TN, FP], [FN, TP]] """ TP = np.sum((y_true == 1) & (y_pred == 1)) FP = np.sum((y_true == 0) & (y_pred == 1)) FN = np.sum((y_true == 1) & (y_pred == 0)) TN = np.sum((y_true == 0) & (y_pred == 0)) return np.array([[TN, FP], [FN, TP]])

使用示例：

y_true = np.array([1, 0, 1, 1, 0, 0, 1, 0]) y_pred = np.array([1, 0, 0, 1, 1, 0, 1, 1]) print("混淆矩阵:") print(confusion_matrix(y_true, y_pred))

输出结果：

混淆矩阵: [[2 2] [1 3]]

这个输出表示：

正确预测的负样本（TN）有2个
错误预测为正的负样本（FP）有2个
错误预测为负的正样本（FN）有1个
正确预测的正样本（TP）有3个

3. 精准率与召回率：质量与覆盖率的权衡

从混淆矩阵可以衍生出两个关键指标：精准率（Precision）和召回率（Recall）。

3.1 精准率（查准率）

精准率关注的是预测为正类的样本中有多少是真正的正类，计算公式为：

精准率 = TP / (TP + FP)

高精准率意味着当模型预测为正类时，我们对其结果有很高的信心。这在误报成本高的场景中尤为重要，比如垃圾邮件分类中把正常邮件误判为垃圾邮件（FP）会带来糟糕的用户体验。

3.2 召回率（查全率）

召回率关注的是实际为正类的样本中有多少被正确预测，计算公式为：

召回率 = TP / (TP + FN)

高召回率意味着我们捕捉到了大部分正类样本。这在漏报成本高的场景中很关键，比如疾病诊断中漏诊患者（FN）可能导致严重后果。

Python实现：

def precision_score(y_true, y_pred): """计算精准率""" conf_mat = confusion_matrix(y_true, y_pred) TP = conf_mat[1, 1] FP = conf_mat[0, 1] # 处理除零情况 if TP + FP == 0: return 0.0 return TP / (TP + FP) def recall_score(y_true, y_pred): """计算召回率""" conf_mat = confusion_matrix(y_true, y_pred) TP = conf_mat[1, 1] FN = conf_mat[1, 0] # 处理除零情况 if TP + FN == 0: return 0.0 return TP / (TP + FN)

使用示例：

print(f"精准率: {precision_score(y_true, y_pred):.2f}") print(f"召回率: {recall_score(y_true, y_pred):.2f}")

可能的输出：

精准率: 0.60 召回率: 0.75

3.3 精准率与召回率的权衡

精准率和召回率通常存在此消彼长的关系，这种权衡关系可以通过PR曲线直观展示。在实际应用中，我们需要根据业务需求决定侧重哪一方：

侧重精准率：当误报（FP）成本高时（如推荐系统，不希望推荐不相关内容）
侧重召回率：当漏报（FN）成本高时（如癌症筛查，不希望漏掉潜在病例）

4. F1 Score：精准率与召回率的调和平均

为了综合评估精准率和召回率，我们引入F1 Score——精准率和召回率的调和平均数：

F1 = 2 × (精准率 × 召回率) / (精准率 + 召回率)

调和平均数比算术平均数更重视较小值，因此只有当精准率和召回率都较高时，F1 Score才会高。

Python实现：

def f1_score(y_true, y_pred): """计算F1 Score""" prec = precision_score(y_true, y_pred) rec = recall_score(y_true, y_pred) # 处理除零情况 if prec + rec == 0: return 0.0 return 2 * (prec * rec) / (prec + rec)

使用示例：

print(f"F1 Score: {f1_score(y_true, y_pred):.2f}")

输出：

F1 Score: 0.67

5. 使用scikit-learn验证我们的实现

为了验证我们手动实现的指标是否正确，可以使用scikit-learn中的相应函数进行对比：

from sklearn.metrics import confusion_matrix as sk_confusion_matrix from sklearn.metrics import precision_score as sk_precision_score from sklearn.metrics import recall_score as sk_recall_score from sklearn.metrics import f1_score as sk_f1_score # 使用scikit-learn计算 sk_cm = sk_confusion_matrix(y_true, y_pred) sk_prec = sk_precision_score(y_true, y_pred) sk_rec = sk_recall_score(y_true, y_pred) sk_f1 = sk_f1_score(y_true, y_pred) print("scikit-learn混淆矩阵:") print(sk_cm) print(f"scikit-learn精准率: {sk_prec:.2f}") print(f"scikit-learn召回率: {sk_rec:.2f}") print(f"scikit-learn F1 Score: {sk_f1:.2f}")

输出应与我们手动实现的结果一致，这验证了我们代码的正确性。

6. 实际案例：乳腺癌诊断数据集分析

让我们将这些指标应用于真实的威斯康星州乳腺癌诊断数据集（可通过scikit-learn加载）：

from sklearn.datasets import load_breast_cancer from sklearn.model_selection import train_test_split from sklearn.linear_model import LogisticRegression # 加载数据 data = load_breast_cancer() X, y = data.data, data.target # 划分训练测试集 X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42) # 训练逻辑回归模型 model = LogisticRegression(max_iter=10000) model.fit(X_train, y_train) # 预测 y_pred = model.predict(X_test) # 计算各项指标 print("混淆矩阵:") print(confusion_matrix(y_test, y_pred)) print(f"精准率: {precision_score(y_test, y_pred):.2f}") print(f"召回率: {recall_score(y_test, y_pred):.2f}") print(f"F1 Score: {f1_score(y_test, y_pred):.2f}")

典型输出可能如下：

混淆矩阵: [[ 59 4] [ 2 106]] 精准率: 0.96 召回率: 0.98 F1 Score: 0.97

这个结果表明模型在乳腺癌诊断上的表现非常优秀，既能准确识别患病样本（高召回率），又很少将健康样本误判为患病（高精准率）。

7. 多分类问题中的指标扩展

虽然本文主要讨论二分类问题，但这些概念可以扩展到多分类场景。对于多分类问题，有两种主要方法：

宏观平均（Macro-average）：计算每个类别的指标后取平均
微观平均（Micro-average）：汇总所有类别的TP/FP/FN/TN后计算指标

scikit-learn中可以通过设置average参数来选择计算方式：

from sklearn.metrics import precision_score # 宏观平均精准率 macro_prec = precision_score(y_true, y_pred, average='macro') # 微观平均精准率 micro_prec = precision_score(y_true, y_pred, average='micro')

在实际项目中，选择哪种平均方式取决于业务需求和数据分布特点。

查看全文

http://www.jsqmd.com/news/906986/