当前位置：首页 > news >正文

机器学习模型评估：训练集与测试集划分详解

news 2026/4/22 2:26:26

1. 机器学习模型评估中的训练集-测试集划分

在机器学习项目中，我们经常需要评估模型在新数据上的表现能力。训练集-测试集划分（Train-Test Split）是最基础也是最常用的模型评估方法之一。这种方法的核心思想是将原始数据集分成两个独立的部分：一部分用于训练模型，另一部分用于测试模型性能。

1.1 为什么需要划分数据集

想象一下，如果学生考试时遇到的题目和平时练习的题目完全一样，那么考试成绩就无法真实反映学生的理解能力。同样地，在机器学习中，如果我们在训练数据上评估模型，会得到过于乐观的性能估计，这种现象称为"过拟合"。

训练集-测试集划分解决了这个问题：

训练集（Training Set）：用于模型学习数据中的模式和规律
测试集（Test Set）：模拟真实场景中的新数据，用于评估模型的泛化能力

1.2 划分比例的选择

常见的划分比例包括：

80%训练，20%测试
67%训练，33%测试
50%训练，50%测试

选择比例时需要考虑：

数据集大小：大数据集可以分配更多给测试集
模型复杂度：复杂模型需要更多训练数据
评估稳定性：测试集需要足够大以提供可靠的性能估计

提示：对于中小型数据集（<10,000样本），建议使用80-20划分；对于大型数据集，可以适当增加测试集比例。

2. 使用scikit-learn实现训练集-测试集划分

Python的scikit-learn库提供了简单易用的train_test_split函数来实现数据集划分。下面我们详细探讨其使用方法。

2.1 基础用法

最基本的划分方式只需要指定测试集比例：

from sklearn.model_selection import train_test_split # 假设X是特征矩阵，y是目标变量 X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.33)

这段代码将：

随机打乱数据集顺序
按照67-33的比例划分数据
返回四个数组：训练特征、测试特征、训练标签、测试标签

2.2 确保结果可复现

机器学习实验需要可重复性。为了实现这一点，我们可以设置随机种子：

X_train, X_test, y_train, y_test = train_test_split( X, y, test_size=0.33, random_state=42 # 固定随机种子 )

设置random_state参数后，每次运行代码都会得到相同的划分结果，这对调试和比较不同模型非常重要。

2.3 处理不平衡数据集

对于分类问题，当不同类别的样本数量差异很大时（如欺诈检测中正常交易远多于欺诈交易），我们需要保持划分后各类别比例不变。这称为分层抽样（Stratified Sampling）。

from collections import Counter from sklearn.datasets import make_classification # 创建不平衡数据集（94%类别0，6%类别1） X, y = make_classification(n_samples=100, weights=[0.94], random_state=1) print("原始数据分布:", Counter(y)) # 普通划分 X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.5, random_state=1) print("普通划分训练集分布:", Counter(y_train)) print("普通划分测试集分布:", Counter(y_test)) # 分层划分 X_train, X_test, y_train, y_test = train_test_split( X, y, test_size=0.5, random_state=1, stratify=y # 关键参数 ) print("\n分层划分训练集分布:", Counter(y_train)) print("分层划分测试集分布:", Counter(y_test))

输出结果：

原始数据分布: Counter({0: 94, 1: 6}) 普通划分训练集分布: Counter({0: 45, 1: 5}) 普通划分测试集分布: Counter({0: 49, 1: 1}) 分层划分训练集分布: Counter({0: 47, 1: 3}) 分层划分测试集分布: Counter({0: 47, 1: 3})

可以看到，分层划分保持了原始数据中的类别比例。

3. 训练集-测试集划分的实际应用

3.1 分类问题示例：声纳信号分类

我们以经典的声纳信号分类数据集为例，演示如何使用训练集-测试集划分来评估随机森林分类器。

from sklearn.datasets import fetch_openml from sklearn.ensemble import RandomForestClassifier from sklearn.metrics import accuracy_score # 加载声纳数据集 sonar = fetch_openml('sonar', version=1) X, y = sonar.data, sonar.target # 划分数据集 X_train, X_test, y_train, y_test = train_test_split( X, y, test_size=0.3, random_state=42, stratify=y # 保持类别比例 ) # 训练随机森林模型 model = RandomForestClassifier(n_estimators=100, random_state=42) model.fit(X_train, y_train) # 评估模型 train_acc = accuracy_score(y_train, model.predict(X_train)) test_acc = accuracy_score(y_test, model.predict(X_test)) print(f"训练集准确率: {train_acc:.3f}") print(f"测试集准确率: {test_acc:.3f}")

3.2 回归问题示例：波士顿房价预测

对于回归问题，我们使用波士顿房价数据集来演示：

from sklearn.datasets import load_boston from sklearn.ensemble import RandomForestRegressor from sklearn.metrics import mean_absolute_error # 加载波士顿房价数据集 boston = load_boston() X, y = boston.data, boston.target # 划分数据集 X_train, X_test, y_train, y_test = train_test_split( X, y, test_size=0.25, random_state=42 ) # 训练随机森林回归模型 model = RandomForestRegressor(n_estimators=100, random_state=42) model.fit(X_train, y_train) # 评估模型 train_mae = mean_absolute_error(y_train, model.predict(X_train)) test_mae = mean_absolute_error(y_test, model.predict(X_test)) print(f"训练集MAE: {train_mae:.3f}") print(f"测试集MAE: {test_mae:.3f}")

4. 训练集-测试集划分的局限性与替代方案

虽然训练集-测试集划分简单易用，但它也存在一些局限性：

4.1 小数据集问题

当数据集很小时（如只有几百个样本），划分会导致：

训练数据不足，模型无法充分学习
测试数据太少，评估结果波动大

解决方案：使用交叉验证（Cross-Validation），特别是k折交叉验证。

4.2 时间序列数据问题

对于时间序列数据，随机划分会破坏时间依赖性，导致数据泄露（Data Leakage）。

解决方案：按时间顺序划分，如用前80%时间的数据训练，后20%测试。

4.3 模型选择偏差

如果反复使用同一个测试集调整模型，测试集实际上变成了训练过程的一部分，导致评估结果过于乐观。

解决方案：

划分出单独的验证集（Train-Validation-Test Split）
使用嵌套交叉验证

5. 实际应用中的注意事项

5.1 数据预处理顺序

常见的错误是在划分前进行特征缩放或缺失值处理，这会导致数据泄露。正确的顺序是：

划分训练集和测试集
在训练集上计算预处理参数（如均值、标准差）
用这些参数转换训练集和测试集

5.2 类别特征的编码

对于分类特征，应该在训练集上学习编码（如OneHotEncoder），然后应用到测试集：

from sklearn.preprocessing import OneHotEncoder # 假设cat_feature是类别特征列 encoder = OneHotEncoder(handle_unknown='ignore') # 忽略测试集中的新类别 X_train_encoded = encoder.fit_transform(X_train[['cat_feature']]) X_test_encoded = encoder.transform(X_test[['cat_feature']])

5.3 模型性能监控

训练集和测试集的性能差异可以反映模型状态：

训练集性能远高于测试集：过拟合
两者都低：欠拟合
测试集性能高于训练集：可能有数据泄露或评估方式不一致

6. 高级技巧与最佳实践

6.1 多次划分验证

为了更可靠地评估模型性能，可以进行多次随机划分并取平均：

from sklearn.model_selection import ShuffleSplit from sklearn.base import clone scores = [] rs = ShuffleSplit(n_splits=5, test_size=0.3, random_state=0) for train_idx, test_idx in rs.split(X): X_train, X_test = X[train_idx], X[test_idx] y_train, y_test = y[train_idx], y[test_idx] model = clone(base_model) # 使用相同的初始参数 model.fit(X_train, y_train) scores.append(model.score(X_test, y_test)) print(f"平均准确率: {np.mean(scores):.3f} (±{np.std(scores):.3f})")

6.2 学习曲线分析

通过改变训练集大小绘制学习曲线，可以诊断模型是否需要更多数据：

from sklearn.model_selection import learning_curve import matplotlib.pyplot as plt train_sizes, train_scores, test_scores = learning_curve( estimator=model, X=X, y=y, train_sizes=np.linspace(0.1, 1.0, 10), cv=5 ) plt.figure() plt.plot(train_sizes, np.mean(train_scores, axis=1), label="训练分数") plt.plot(train_sizes, np.mean(test_scores, axis=1), label="交叉验证分数") plt.xlabel("训练样本数") plt.ylabel("分数") plt.legend() plt.show()

6.3 特征重要性分析

利用测试集分析特征重要性，可以识别哪些特征真正有助于泛化：

# 对于随机森林 importances = model.feature_importances_ indices = np.argsort(importances)[::-1] plt.figure() plt.title("特征重要性") plt.bar(range(X.shape[1]), importances[indices]) plt.xticks(range(X.shape[1]), indices) plt.show()