当前位置：首页 > news >正文

小样本二分类愁死个人？每次交叉验证结果波动大得离谱？试试LOOCV（留一法交叉验证）搭配SVM，精准拿捏小数据的分类效果，还能一键出全指标+ROC曲线

news 2026/3/27 4:23:38

基于python使用LOOCV进行SVM二分类，只需要提供特征矩阵以及label，就可以得到分类的准确率，F1-score,敏感性，特异性,还可以绘制ROC曲线以及曲线下面积适合小样本的二分类，

先把要用的工具包拉满：

import numpy as np from sklearn.svm import SVC from sklearn.model_selection import LeaveOneOut from sklearn.metrics import (accuracy_score, f1_score, recall_score, confusion_matrix, roc_curve, roc_auc_score) import matplotlib.pyplot as plt

sklearn的SVM负责分类，LeaveOneOut就是留一法的核心，各种评估指标直接调用现成的，画图用matplotlib足够。

先整个小样本例子模拟你的数据——假设你有15个样本（典型小样本量级），每个样本5个特征，标签是0/1二分类：

# 模拟小样本数据：15个样本，5个特征，二分类标签 np.random.seed(42) # 固定随机种子，结果可复现 X = np.random.randn(15, 5) # 特征矩阵 y = np.random.randint(0, 2, size=15) # 二分类标签

实际用的时候，把这里的X和y换成你自己的真实数据就行，不用改后面的流程。

接下来是LOOCV的核心循环：

# 初始化留一法 loo = LeaveOneOut() y_true_all = [] y_pred_all = [] y_prob_all = [] # 存储预测概率，用于画ROC # 遍历每个fold for train_idx, test_idx in loo.split(X): X_train, X_test = X[train_idx], X[test_idx] y_train, y_test = y[train_idx], y[test_idx] # 训练SVM，注意开probability=True才能输出预测概率 svm_clf = SVC(kernel='rbf', probability=True, random_state=42) svm_clf.fit(X_train, y_train) # 预测和收集结果 y_pred = svm_clf.predict(X_test) y_prob = svm_clf.predict_proba(X_test)[:, 1] # 正类的预测概率 y_true_all.append(y_test[0]) y_pred_all.append(y_pred[0]) y_prob_all.append(y_prob[0]) # 转成数组方便计算 y_true_all = np.array(y_true_all) y_pred_all = np.array(y_pred_all) y_prob_all = np.array(y_prob_all)

为啥用LOOCV？小样本要是用k=5折，每个测试集才3个样本，结果波动能上天！留一法每次只拿一个样本当测试集，用剩下所有样本训练，对小样本来说结果最稳定——无非就是循环次数等于样本数，15个样本就跑15次SVM，算力完全扛得住。另外SVM开probability=True是为了后面画ROC曲线，不然输出不了分类概率，这步别忘！

然后就是大家最关心的指标计算，直接上代码+大白话解释：

# 计算核心指标 accuracy = accuracy_score(y_true_all, y_pred_all) f1 = f1_score(y_true_all, y_pred_all) # 敏感性（Recall）：正样本被正确识别的比例 sensitivity = recall_score(y_true_all, y_pred_all, pos_label=1) # 特异性：负样本被正确识别的比例 = TN/(TN+FP) tn, fp, fn, tp = confusion_matrix(y_true_all, y_pred_all).ravel() specificity = tn / (tn + fp) print(f"准确率：{accuracy:.3f}") print(f"F1-score：{f1:.3f}") print(f"敏感性（正样本识别率）：{sensitivity:.3f}") print(f"特异性（负样本识别率）：{specificity:.3f}")

准确率：所有样本里分对的比例，适合数据均衡的情况；
F1-score：精确率和召回率的调和平均，不管数据平不平衡都能反应整体分类效果；
敏感性：比如你要找“患病样本”，这个指标就是你能把多少真患者揪出来；
特异性：就是别把没病的当成有病的，比例越高越不会冤枉人。

最后搞个ROC曲线+AUC，直观展示分类器的性能：

# 计算ROC曲线和AUC fpr, tpr, thresholds = roc_curve(y_true_all, y_prob_all) auc = roc_auc_score(y_true_all, y_prob_all) # 画ROC曲线 plt.figure(figsize=(8, 6)) plt.plot(fpr, tpr, color='darkorange', lw=2, label=f'ROC curve (AUC = {auc:.3f})') plt.plot([0, 1], [0, 1], color='navy', lw=2, linestyle='--', label='Random guess') plt.xlabel('False Positive Rate (1 - Specificity)') plt.ylabel('True Positive Rate (Sensitivity)') plt.title('ROC Curve with LOOCV-SVM') plt.legend(loc="lower right") plt.grid(alpha=0.3) plt.show()

ROC曲线的X轴是假阳性率（1-特异性），Y轴是真阳性率（敏感性），曲线越往左上角弯，AUC越接近1，说明分类器越能区分开两类样本。比如你跑出来AUC在0.8以上，说明你的SVM在小样本上表现还不错！

整体流程就这么简单，把你的特征矩阵X和标签y塞进去，一键出所有指标+可视化结果，小样本二分类的评估直接闭环！再也不用纠结交叉验证选啥方法，LOOCV就是小样本的最优解之一～

查看全文

http://www.jsqmd.com/news/531554/