当前位置：首页 > news >正文

别再傻傻分不清了！用Python实战案例帮你彻底搞懂准确率、召回率和精确度

news 2026/6/3 1:19:15

用Python代码实战解析机器学习评估指标：从混淆矩阵到F1分数

刚接触机器学习模型评估时，那些拗口的专业术语总让人一头雾水——准确率、召回率、精确度，听起来都差不多，实际却衡量着模型不同维度的表现。更让人困惑的是，为什么一个简单的二分类问题需要这么多评价指标？本文将通过Python代码和可视化分析，带你亲手计算这些指标，观察它们随决策阈值变化的规律。

1. 从鸢尾花数据集构建二分类问题

我们选用经典的鸢尾花数据集作为实验对象。这个数据集包含150个样本，每个样本有4个特征（萼片长度、萼片宽度、花瓣长度、花瓣宽度），分为3个类别。为了简化问题，我们将其转换为二分类任务：

from sklearn.datasets import load_iris from sklearn.model_selection import train_test_split import numpy as np # 加载数据并转换为二分类问题 iris = load_iris() X = iris.data[:, :2] # 只使用前两个特征便于可视化 y = (iris.target != 0).astype(int) # 将类别1和2合并为1，类别0作为0 # 划分训练集和测试集 X_train, X_test, y_train, y_test = train_test_split( X, y, test_size=0.3, random_state=42)

提示：在实际业务场景中，二分类问题非常常见，例如垃圾邮件检测（垃圾邮件/正常邮件）、欺诈交易识别（欺诈/正常）等。理解这些评估指标对模型优化至关重要。

2. 训练逻辑回归模型并理解混淆矩阵

我们使用逻辑回归模型进行训练，并输出预测结果：

from sklearn.linear_model import LogisticRegression from sklearn.metrics import confusion_matrix # 训练模型 model = LogisticRegression() model.fit(X_train, y_train) # 预测概率和类别 y_pred_prob = model.predict_proba(X_test)[:, 1] y_pred = model.predict(X_test) # 计算混淆矩阵 cm = confusion_matrix(y_test, y_pred) print("混淆矩阵:") print(cm)

典型的混淆矩阵输出如下：

混淆矩阵: [[14 1] [ 0 30]]

这个矩阵可以分解为：

真正例(TP): 30 - 模型正确预测的正例
假正例(FP): 1 - 模型错误预测的正例
真负例(TN): 14 - 模型正确预测的负例
假负例(FN): 0 - 模型错误预测的负例

3. 核心评估指标的计算与解读

3.1 准确率(Accuracy)的局限性

准确率是最直观的指标，计算公式为：

accuracy = (TP + TN) / (TP + TN + FP + FN)

但在不平衡数据集中，准确率可能产生误导。例如在欺诈检测中，如果99%的交易都是正常的，一个总是预测"正常"的模型也能达到99%的准确率，但完全无法检测欺诈。

3.2 召回率(Recall)与精确度(Precision)的权衡

召回率(查全率)和精确度(查准率)是更细致的评估指标：

# 计算召回率和精确度 def calculate_metrics(TP, FP, TN, FN): recall = TP / (TP + FN) precision = TP / (TP + FP) return recall, precision recall, precision = calculate_metrics(TP=30, FP=1, TN=14, FN=0) print(f"召回率: {recall:.2f}, 精确度: {precision:.2f}")

指标对比：

指标	关注点	应用场景
召回率	找出所有正例的能力	疾病诊断、安全检测
精确度	预测为正例的准确性	推荐系统、搜索引擎排序

3.3 F1分数：召回率与精确度的调和平均

当需要在召回率和精确度之间取得平衡时，F1分数是一个综合指标：

f1_score = 2 * (precision * recall) / (precision + recall)

4. 阈值调整对指标的影响分析

分类模型的预测实际上是概率值，我们通过设定阈值(默认为0.5)来决定最终分类。调整这个阈值会显著影响各项指标：

import matplotlib.pyplot as plt from sklearn.metrics import precision_recall_curve # 计算不同阈值下的精确度和召回率 precisions, recalls, thresholds = precision_recall_curve(y_test, y_pred_prob) plt.figure(figsize=(10, 6)) plt.plot(thresholds, precisions[:-1], label="精确度") plt.plot(thresholds, recalls[:-1], label="召回率") plt.xlabel("阈值") plt.ylabel("分数") plt.legend() plt.title("精确度和召回率随阈值变化曲线") plt.show()

观察曲线可以发现：

当阈值提高时：
- 精确度通常会上升（因为只对非常确信的样本预测为正）
- 召回率通常会下降（因为会错过一些正例）
当阈值降低时：
- 召回率通常会上升（能捕捉到更多正例）
- 精确度通常会下降（会混入更多假正例）

5. 多维度评估与业务场景适配

在实际项目中，选择哪个指标作为主要优化目标取决于业务需求：

医疗诊断：宁可误诊也不漏诊，优先保证高召回率
垃圾邮件过滤：宁可放过一些垃圾邮件也不误判正常邮件，优先保证高精确度
推荐系统：需要平衡点击率(类似召回率)和推荐准确性(精确度)，常用F1分数

我们可以用分类报告综合查看所有指标：

from sklearn.metrics import classification_report print(classification_report(y_test, y_pred))

输出示例：

precision recall f1-score support 0 1.00 0.93 0.97 15 1 0.97 1.00 0.98 30 accuracy 0.98 45 macro avg 0.98 0.97 0.98 45 weighted avg 0.98 0.98 0.98 45

6. 高级主题：ROC曲线与AUC值

除了精确度-召回率曲线，ROC曲线是另一种重要的可视化工具：

from sklearn.metrics import roc_curve, auc fpr, tpr, _ = roc_curve(y_test, y_pred_prob) roc_auc = auc(fpr, tpr) plt.figure() plt.plot(fpr, tpr, label=f'ROC曲线 (AUC = {roc_auc:.2f})') plt.plot([0, 1], [0, 1], 'k--') plt.xlabel('假正率(FPR)') plt.ylabel('真正率(TPR)') plt.title('ROC曲线') plt.legend() plt.show()

ROC曲线下的面积(AUC)提供了模型整体区分能力的评估：

0.9-1.0：优秀
0.8-0.9：良好
0.7-0.8：一般
0.6-0.7：较差
0.5-0.6：失败

7. 工程实践中的注意事项

在实际项目中应用这些指标时，有几个常见陷阱需要注意：

数据泄露：确保测试集完全独立于训练集
指标选择：不要盲目优化单一指标而忽略业务需求
阈值调整：在生产环境中可能需要定期重新校准阈值
冷启动问题：新项目初期可能缺乏足够的负样本

一个实用的技巧是保存每次实验的评估指标，便于比较不同模型的性能：

import pandas as pd metrics_history = pd.DataFrame(columns=['Model', 'Accuracy', 'Precision', 'Recall', 'F1', 'AUC']) # 添加记录示例 metrics_history.loc[len(metrics_history)] = [ 'Logistic Regression', 0.98, 0.97, 1.00, 0.98, 0.99 ]

理解这些评估指标的关键在于实际动手实验。建议读者尝试修改代码中的阈值，观察指标变化，或者在其他数据集上测试这些概念。只有通过实践，这些抽象的概念才会变得具体而直观。

查看全文

http://www.jsqmd.com/news/939185/