当前位置：首页 > news >正文

McNemar检验：机器学习分类器性能比较的统计方法

news 2026/4/29 22:52:15

## 1. 分类器比较的统计基础 当我们需要评估两个机器学习分类器的性能差异时，准确率对比往往会产生误导。假设我们有分类器A和B在相同测试集上的预测结果： | 样本总数 | A正确 B正确 | A正确 B错误 | A错误 B正确 | A错误 B错误 | |----------|-------------|-------------|-------------|-------------| | 1000 | 700 | 50 | 200 | 50 | 表面上看，A的准确率是75%，B的准确率是90%，似乎B更优。但这里忽略了两个关键因素：1) 两个分类器在700个样本上表现一致；2) 真正产生差异的是那250个(50+200)分歧样本。 McNemar检验正是针对这种配对设计(同一测试集)的统计方法，它只关注两个分类器预测结果不一致的样本，通过构建列联表进行卡方检验。其原假设是：两个分类器在分歧样本上的错误率相同。 ## 2. McNemar检验的数学原理 ### 2.1 检验统计量计算 构建如下列联表： | | 分类器B正确 | 分类器B错误 | |----------------|-------------|-------------| | **分类器A正确** | e | f | | **分类器A错误** | g | h | 检验统计量计算公式为： χ² = (|f - g| - 1)² / (f + g) 其中-1是连续性校正项(建议样本量<100时使用)。这个统计量服从自由度为1的卡方分布。 ### 2.2 计算示例 假设我们得到如下结果： - A正确B错误(f): 40 - A错误B正确(g): 60 计算过程： 1. 计算分子：(|40-60|-1)² = (19)² = 361 2. 计算分母：40+60 = 100 3. 最终统计量：361/100 = 3.61 查卡方分布表，自由度为1时，临界值3.84对应p=0.05。由于3.61 < 3.84，不能拒绝原假设，即两个分类器性能差异不显著。 ## 3. Python实现详解 ### 3.1 使用statsmodels库 ```python from statsmodels.stats.contingency_tables import mcnemar # 构建列联表 table = [[700, 50], [200, 50]] result = mcnemar(table, exact=False, correction=True) print(f'统计量: {result.statistic:.3f}') print(f'p值: {result.pvalue:.4f}')

参数说明：

exact: 样本量>25时设为False使用卡方近似
correction: 是否应用连续性校正

3.2 手动实现验证

import numpy as np from scipy.stats import chi2 def manual_mcnemar(b, c, correction=True): if correction: numerator = (abs(b - c) - 1)**2 else: numerator = (b - c)**2 denominator = b + c chi_squared = numerator / denominator p = 1 - chi2.cdf(chi_squared, df=1) return chi_squared, p chi2, p = manual_mcnemar(50, 200) print(f"手动计算结果: χ²={chi2:.3f}, p={p:.4f}")

4. 实际应用中的关键考量

4.1 样本量要求

McNemar检验要求：

最少应有20个分歧样本(f+g ≥ 20)
当f+g < 20时，应使用精确二项检验

修正建议：

if f + g < 20: from scipy.stats import binomtest result = binomtest(min(f,g), f+g, 0.5, alternative='two-sided') p_value = result.pvalue

4.2 多重检验问题

当比较多个分类器时，需要进行p值校正：

from statsmodels.stats.multitest import multipletests p_values = [0.03, 0.01, 0.4] _, corrected_p, _, _ = multipletests(p_values, method='holm')

4.3 效应量计算

除了显著性，还应报告效应量：

effect_size = (f - g) / (f + g)**0.5 print(f"Cohen's g效应量: {effect_size:.3f}")

5. 完整案例解析

5.1 数据准备

我们比较SVM和随机森林在MNIST数据集上的表现：

from sklearn.datasets import load_digits from sklearn.model_selection import train_test_split from sklearn.svm import SVC from sklearn.ensemble import RandomForestClassifier digits = load_digits() X_train, X_test, y_train, y_test = train_test_split(digits.data, digits.target, test_size=0.3) svm = SVC().fit(X_train, y_train) rf = RandomForestClassifier().fit(X_train, y_train) svm_pred = svm.predict(X_test) rf_pred = rf.predict(X_test)

5.2 构建列联表

import numpy as np def build_contingency_table(y_true, pred1, pred2): both_correct = np.sum((pred1 == y_true) & (pred2 == y_true)) a_correct = np.sum((pred1 == y_true) & (pred2 != y_true)) b_correct = np.sum((pred1 != y_true) & (pred2 == y_true)) both_wrong = np.sum((pred1 != y_true) & (pred2 != y_true)) return [[both_correct, a_correct], [b_correct, both_wrong]] table = build_contingency_table(y_test, svm_pred, rf_pred)

5.3 可视化分析

import matplotlib.pyplot as plt import seaborn as sns plt.figure(figsize=(8,6)) sns.heatmap(table, annot=True, fmt='d', cmap='Blues', xticklabels=['RF正确','RF错误'], yticklabels=['SVM正确','SVM错误']) plt.title('预测结果列联表') plt.show()

6. 常见问题解决方案

6.1 零单元格处理

当f或g为0时，传统卡方检验可能失效。推荐方案：

使用Yates连续性校正
改用精确检验：

from scipy.stats import binomtest result = binomtest(min(f,g), f+g, 0.5)

6.2 不平衡数据影响

当两个分类器在多数类上表现相似时，McNemar可能低估差异。建议：

按类别分层分析
结合F1-score等指标综合评估

6.3 与交叉验证的结合

在k折交叉验证中，推荐两种方法：

汇总所有折的预测结果后统一检验
对每折单独检验后整合p值(Fisher方法)

from scipy.stats import combine_pvalues p_values = [...] # 各折的p值 _, combined_p = combine_pvalues(p_values, method='fisher')

7. 替代方法比较

7.1 与t检验的对比

特征	McNemar检验	配对t检验
数据类型	分类(正确/错误)	连续(准确率等)
关注点	预测不一致的样本	整体性能差异
适用场景	单一测试集	多轮实验结果

7.2 与Cohen's kappa的比较

Kappa衡量一致性，McNemar检验差异显著性。可以同时报告：

from sklearn.metrics import cohen_kappa_score kappa = cohen_kappa_score(pred1, pred2)

8. 高级应用场景

8.1 多分类问题处理

对于多类分类，有两种策略：

二值化处理(正确vs错误)
使用Cochran's Q检验比较多个分类器

from statsmodels.stats.contingency_tables import cochrans_q # 三个分类器的预测结果 q, p = cochrans_q(np.array([pred1, pred2, pred3]).T)

8.2 代价敏感分析

当不同错误类型的代价不同时，可以加权处理：

weighted_statistic = (abs(f*weight_f - g*weight_g) - 1)**2 / (f*weight_f + g*weight_g)

8.3 时间序列数据

对于时间相关的预测，使用Cochran-Mantel-Haenszel检验：

from statsmodels.stats.contingency_tables import StratifiedTable # 按时间片分层 table = StratifiedTable.from_data(time_slices, pred1, pred2) result = table.test_equal_association()

我在实际项目中发现，当比较深度学习模型时，McNemar检验特别有用。例如比较CNN和Transformer模型时，虽然整体准确率可能接近，但McNemar能揭示它们在哪些样本类型上存在系统性差异。一个实用技巧是：对McNemar检验中显著的样本进行特征分析，这往往能发现模型的特异性弱点。

查看全文

http://www.jsqmd.com/news/721554/