当前位置：首页 > news >正文

保姆级教程：用Scikit-learn的train_test_split和cross_val_score搞定数据集划分与交叉验证

news 2026/6/7 2:08:05

从零掌握Scikit-learn数据集划分与交叉验证实战指南

刚接触机器学习时，最让人困惑的莫过于如何正确处理数据集划分。记得我第一次参加Kaggle比赛时，明明在本地测试集上表现优异，提交后排名却惨不忍睹。后来才发现，问题出在数据集划分方式上——我错误地重复使用了测试集进行调参。本文将用最直白的代码示例，带你避开这些新手常见陷阱。

1. 数据准备与环境搭建

在开始划分数据集前，我们需要确保环境配置正确。推荐使用Python 3.8+版本和Scikit-learn 1.0+版本，这些版本提供了更稳定的数据划分功能。

首先安装必要库：

pip install scikit-learn pandas numpy

准备示例数据集时，我们可以使用Scikit-learn自带的鸢尾花数据集：

from sklearn.datasets import load_iris import pandas as pd iris = load_iris() X = pd.DataFrame(iris.data, columns=iris.feature_names) y = pd.Series(iris.target, name='species')

提示：实际项目中，建议在数据加载后立即检查数据分布情况，这对后续的分层抽样至关重要。

2. 基础数据集划分方法

2.1 train_test_split基础用法

train_test_split是Scikit-learn中最常用的数据划分函数。最基本的用法只需要传入特征矩阵和目标变量：

from sklearn.model_selection import train_test_split X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2)

这里有几个关键参数需要注意：

参数	说明	推荐值
test_size	测试集比例	0.2-0.3
random_state	随机种子	任意整数
shuffle	是否打乱数据	True
stratify	分层抽样依据	分类问题的y值

2.2 分层抽样保持类别分布

对于分类问题，保持训练集和测试集中各类别比例一致非常重要。这可以通过stratify参数实现：

X_train, X_test, y_train, y_test = train_test_split( X, y, test_size=0.2, stratify=y, random_state=42 )

验证类别分布是否一致：

print(y_train.value_counts(normalize=True)) print(y_test.value_counts(normalize=True))

2.3 随机种子的重要性

随机种子(random_state)确保了每次运行代码都能得到相同的划分结果，这对结果复现至关重要。常见错误包括：

忘记设置随机种子，导致每次运行结果不同
在不同代码段使用不同随机种子
在团队项目中未统一随机种子值

3. 高级划分策略与验证集构建

3.1 创建验证集的三种方法

在实际项目中，我们通常需要三个数据集：训练集、验证集和测试集。以下是三种创建方法：

两次拆分法：

# 第一次拆分：分离测试集 X_temp, X_test, y_temp, y_test = train_test_split( X, y, test_size=0.2, random_state=42) # 第二次拆分：从剩余数据中分离验证集 X_train, X_val, y_train, y_val = train_test_split( X_temp, y_temp, test_size=0.25, random_state=42) # 0.25 x 0.8 = 0.2

直接指定比例法：

X_train, X_test, y_train, y_test = train_test_split( X, y, test_size=0.4, random_state=42) X_val, X_test, y_val, y_test = train_test_split( X_test, y_test, test_size=0.5, random_state=42)

时间序列划分法（适用于时间相关数据）：

split_point = int(len(X) * 0.6) X_train, X_test = X[:split_point], X[split_point:]

3.2 验证集的正确使用方法

验证集主要用于：

模型选择：比较不同算法的表现
超参数调优：寻找最佳参数组合
早停机制：防止过拟合

常见错误用法：

使用测试集进行模型选择或调参
基于验证集表现反复调整模型，导致信息泄露
验证集划分比例不当（太大影响训练，太小不可靠）

4. 交叉验证实战技巧

4.1 k折交叉验证基础

cross_val_score提供了简单的交叉验证实现：

from sklearn.model_selection import cross_val_score from sklearn.ensemble import RandomForestClassifier model = RandomForestClassifier(random_state=42) scores = cross_val_score(model, X, y, cv=5) print(f"平均准确率: {scores.mean():.2f} (±{scores.std():.2f})")

4.2 高级交叉验证策略

Scikit-learn提供了多种交叉验证方法：

分层k折：保持每折中的类别比例

from sklearn.model_selection import StratifiedKFold cv = StratifiedKFold(n_splits=5, shuffle=True, random_state=42) scores = cross_val_score(model, X, y, cv=cv)

重复交叉验证：减少随机性影响

from sklearn.model_selection import RepeatedStratifiedKFold cv = RepeatedStratifiedKFold(n_splits=5, n_repeats=10, random_state=42)

分组交叉验证：确保同一组数据不分到不同折

from sklearn.model_selection import GroupKFold groups = [...] # 定义分组依据 cv = GroupKFold(n_splits=5)

4.3 交叉验证的常见陷阱

数据泄露：在交叉验证前进行了全局标准化

# 错误做法 from sklearn.preprocessing import StandardScaler X_scaled = StandardScaler().fit_transform(X) # 泄露了测试集信息 scores = cross_val_score(model, X_scaled, y, cv=5) # 正确做法 from sklearn.pipeline import make_pipeline model = make_pipeline(StandardScaler(), RandomForestClassifier()) scores = cross_val_score(model, X, y, cv=5)

时间序列误用：对时间相关数据使用标准k折
类别不平衡忽略：未使用分层抽样导致某些折缺少代表性类别

5. 实际项目中的最佳实践

5.1 完整机器学习工作流示例

from sklearn.pipeline import Pipeline from sklearn.preprocessing import StandardScaler from sklearn.impute import SimpleImputer from sklearn.model_selection import train_test_split, GridSearchCV # 数据划分 X_train, X_test, y_train, y_test = train_test_split( X, y, test_size=0.2, stratify=y, random_state=42) # 构建管道 pipeline = Pipeline([ ('imputer', SimpleImputer(strategy='median')), ('scaler', StandardScaler()), ('model', RandomForestClassifier(random_state=42)) ]) # 参数网格 param_grid = { 'model__n_estimators': [50, 100, 200], 'model__max_depth': [None, 5, 10] } # 网格搜索交叉验证 search = GridSearchCV( pipeline, param_grid, cv=5, scoring='accuracy', n_jobs=-1) search.fit(X_train, y_train) # 最终评估 final_score = search.score(X_test, y_test) print(f"测试集准确率: {final_score:.2f}")

5.2 处理特殊数据情况的技巧

小数据集：使用留一法(LeaveOneOut)或留P法(LeavePOut)
不平衡数据：使用分层抽样或调整类别权重
多标签问题：使用迭代划分或多标签特定策略

5.3 性能优化建议

并行化处理：

cross_val_score(model, X, y, cv=5, n_jobs=-1) # 使用所有CPU核心

内存优化：

from sklearn.model_selection import cross_validate results = cross_validate(model, X, y, cv=5, return_train_score=True)

自定义评分指标：

from sklearn.metrics import make_scorer def custom_metric(y_true, y_pred): return ... scorer = make_scorer(custom_metric) scores = cross_val_score(model, X, y, cv=5, scoring=scorer)

在真实项目中，我发现最稳妥的做法是：先划分出测试集并严格隔离，然后在剩余数据上使用交叉验证进行模型开发和调参。特别是在参加Kaggle比赛时，Public Leaderboard实际上相当于一个大型验证集，而真正的测试集(Private Leaderboard)要到比赛结束才会揭晓。这种划分方式能有效防止过拟合和过度乐观的评估。

查看全文

http://www.jsqmd.com/news/658386/