当前位置：首页 > news >正文

深入了解 Python 中的 Scikit-learn：机器学习的强大工具

news 2026/3/26 20:02:45

什么是 Scikit-learn？

Scikit-learn 是一个开源的 Python 库，专为机器学习任务设计。它建立在 NumPy、SciPy 和 Matplotlib 等科学计算库之上，提供了统一的接口来实现各种机器学习算法，包括：

监督学习（如分类、回归）
无监督学习（如聚类、降维）
模型选择与评估
数据预处理
特征工程

Scikit-learn 不仅功能强大，而且易于上手，非常适合从入门到进阶的机器学习实践。

安装 Scikit-learn

安装 Scikit-learn 非常简单，只需使用 pip 命令：

pip install scikit-learn

安装完成后，在 Python 脚本或 Jupyter Notebook 中导入即可使用：

import sklearn

Scikit-learn 的核心模块

Scikit-learn 按照功能划分为多个模块，以下是几个主要部分：

1.`sklearn.model_selection`

用于划分训练集和测试集、交叉验证、超参数调优等。

常用函数：

train_test_split()：划分数据集
GridSearchCV()：网格搜索调参

2.`sklearn.preprocessing`

提供数据预处理工具，如标准化、归一化、编码分类变量等。

常用类：

StandardScaler：标准化特征
MinMaxScaler：归一化到 [0,1] 区间
LabelEncoder、OneHotEncoder：处理类别标签

3.`sklearn.linear_model`

包含线性模型，如线性回归、逻辑回归、岭回归等。

4.`sklearn.ensemble`

集成学习方法，如随机森林、梯度提升树（Gradient Boosting）、AdaBoost 等。

5.`sklearn.cluster`

无监督聚类算法，如 K-Means、DBSCAN、层次聚类等。

6.`sklearn.metrics`

模型评估指标，如准确率、精确率、召回率、F1 分数、均方误差等。

使用 Scikit-learn 的典型流程

使用 Scikit-learn 进行机器学习通常遵循以下几个步骤：

加载数据
数据预处理（清洗、标准化、编码等）
划分训练集与测试集
选择并训练模型
预测与评估
调优与部署

下面我们通过一个简单的分类示例来演示整个过程。

实战示例：使用 Scikit-learn 进行鸢尾花分类

我们将使用著名的 Iris（鸢尾花）数据集，这是一个经典的分类问题，目标是根据花萼和花瓣的尺寸预测鸢尾花的种类。

# 导入所需库 from sklearn.datasets import load_iris from sklearn.model_selection import train_test_split from sklearn.preprocessing import StandardScaler from sklearn.ensemble import RandomForestClassifier from sklearn.metrics import accuracy_score, classification_report # 1. 加载数据 iris = load_iris() X, y = iris.data, iris.target # 2. 划分训练集和测试集 X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42) # 3. 数据标准化 scaler = StandardScaler() X_train = scaler.fit_transform(X_train) X_test = scaler.transform(X_test) # 4. 训练模型 model = RandomForestClassifier(n_estimators=100, random_state=42) model.fit(X_train, y_train) # 5. 预测 y_pred = model.predict(X_test) # 6. 评估 accuracy = accuracy_score(y_test, y_pred) print(f"准确率: {accuracy:.2f}") print("\n分类报告:") print(classification_report(y_test, y_pred, target_names=iris.target_names))

输出结果示例：

准确率: 1.00 分类报告: precision recall f1-score support setosa 1.00 1.00 1.00 9 versicolor 1.00 1.00 1.00 7 virginica 1.00 1.00 1.00 4 accuracy 1.00 20 macro avg 1.00 1.00 1.00 20 weighted avg 1.00 1.00 1.00 20

可以看到，模型在测试集上达到了 100% 的准确率，表现非常出色！