当前位置：首页 > news >正文

用Python玩转Iris数据集：从数据加载到可视化分析的完整指南

news 2026/7/21 12:58:48

用Python玩转Iris数据集：从数据加载到可视化分析的完整指南

鸢尾花数据集（Iris dataset）是机器学习领域最经典的数据集之一，它就像编程界的"Hello World"，是每个数据科学初学者必学的案例。这个数据集不仅结构清晰、规模适中，更重要的是它包含了真实世界中的分类问题，能帮助我们快速理解数据分析和机器学习的基本流程。

本文将带你用Python中最流行的pandas和matplotlib库，从零开始探索这个神奇的数据集。无论你是刚接触Python的数据分析新手，还是想巩固基础的数据爱好者，都能通过这篇实战指南获得实用的技能。我们会从数据加载开始，一步步进行数据清洗、探索性分析，最后用多种可视化方法揭示数据背后的故事。

1. 环境准备与数据加载

在开始之前，确保你的Python环境中已经安装了必要的库。如果你使用Anaconda，这些库通常已经预装；如果是标准Python环境，可以通过pip安装：

pip install pandas matplotlib seaborn scikit-learn numpy

Iris数据集在scikit-learn库中内置，加载非常方便：

from sklearn import datasets import pandas as pd # 加载数据集 iris = datasets.load_iris() # 转换为pandas DataFrame df = pd.DataFrame(data=iris.data, columns=iris.feature_names) df['species'] = iris.target df['species'] = df['species'].map({0: 'setosa', 1: 'versicolor', 2: 'virginica'})

提示：使用pandas DataFrame而不是原始的numpy数组，可以更方便地进行数据操作和分析。

让我们先快速查看一下数据的基本信息：

print(df.info()) print(df.describe()) print(df['species'].value_counts())

输出结果会显示我们有150条记录，4个特征列（花萼长度、花萼宽度、花瓣长度、花瓣宽度）和1个目标列（鸢尾花种类），且数据完整没有缺失值。三类鸢尾花的样本数量均衡，各50个。

2. 数据探索与预处理

2.1 理解数据结构

Iris数据集中的四个特征都是连续数值型数据，单位是厘米：

花萼长度（sepal length）
花萼宽度（sepal width）
花瓣长度（petal length）
花瓣宽度（petal width）

目标变量是分类标签，表示三种鸢尾花：

setosa（山鸢尾）
versicolor（变色鸢尾）
virginica（维吉尼亚鸢尾）

我们可以先看看各类鸢尾花的特征均值有何差异：

df.groupby('species').mean()

2.2 数据清洗

虽然Iris数据集已经很干净，但在实际项目中，数据清洗是必不可少的步骤。这里我们练习一些常见的清洗操作：

# 检查缺失值 print(df.isnull().sum()) # 检查异常值（假设任何特征值小于0都是异常） print(df[(df.select_dtypes(include=['float64']) < 0).any(axis=1)]) # 数据标准化（可选） from sklearn.preprocessing import StandardScaler scaler = StandardScaler() df_scaled = pd.DataFrame(scaler.fit_transform(df.iloc[:, :4]), columns=df.columns[:4]) df_scaled['species'] = df['species']

注意：标准化不是必须的，但在某些机器学习算法中能提高性能。

3. 单变量与多变量分析

3.1 单变量分析

了解每个特征的分布情况是数据分析的基础。我们可以绘制直方图来观察每个特征的分布：

import matplotlib.pyplot as plt df.hist(figsize=(12, 8)) plt.tight_layout() plt.show()

从直方图中可以观察到：

花萼宽度的分布接近正态分布
花瓣长度和宽度呈现明显的双峰分布
setosa的花瓣尺寸明显小于其他两类

3.2 双变量分析

探索特征之间的关系能帮助我们理解数据的结构。散点图是观察两个连续变量关系的有效工具：

plt.figure(figsize=(12, 6)) plt.scatter(df['petal length (cm)'], df['petal width (cm)'], c=iris.target) plt.xlabel('Petal Length (cm)') plt.ylabel('Petal Width (cm)') plt.colorbar(ticks=[0, 1, 2], label='Species') plt.show()

这个散点图清晰地展示了三类鸢尾花在花瓣尺寸上的差异，特别是setosa与其他两类有明显的分隔。

3.3 相关性分析

计算特征间的相关系数可以帮助我们理解它们之间的线性关系：

corr_matrix = df.iloc[:, :4].corr() print(corr_matrix)

我们可以用热图更直观地展示相关性：

import seaborn as sns plt.figure(figsize=(8, 6)) sns.heatmap(corr_matrix, annot=True, cmap='coolwarm') plt.title('Feature Correlation Heatmap') plt.show()

4. 高级可视化技术

4.1 箱线图分析

箱线图能很好地展示数据的分布和离群值：

plt.figure(figsize=(12, 6)) df.boxplot(by='species', figsize=(12, 8)) plt.suptitle('') plt.show()

从箱线图可以看出：

setosa的花萼宽度最大，花瓣尺寸最小
virginica的花瓣尺寸最大
versicolor的各项特征介于两者之间

4.2 小提琴图

小提琴图结合了箱线图和核密度估计的优点，能更全面地展示数据分布：

plt.figure(figsize=(12, 8)) for i, feature in enumerate(df.columns[:4]): plt.subplot(2, 2, i+1) sns.violinplot(x='species', y=feature, data=df) plt.tight_layout() plt.show()

4.3 配对图

Seaborn的pairplot可以一次性展示所有特征两两之间的关系：

sns.pairplot(df, hue='species', height=2.5) plt.show()

这个图不仅展示了每个特征的分布，还展示了任意两个特征的散点关系，是探索性数据分析的利器。

4.4 3D散点图

对于更高维度的可视化，我们可以使用3D散点图：

from mpl_toolkits.mplot3d import Axes3D fig = plt.figure(figsize=(10, 8)) ax = fig.add_subplot(111, projection='3d') for species, color in zip(['setosa', 'versicolor', 'virginica'], ['r', 'g', 'b']): subset = df[df['species'] == species] ax.scatter(subset['sepal length (cm)'], subset['petal length (cm)'], subset['petal width (cm)'], label=species, c=color) ax.set_xlabel('Sepal Length') ax.set_ylabel('Petal Length') ax.set_zlabel('Petal Width') ax.legend() plt.show()

5. 从可视化到机器学习

通过前面的可视化分析，我们已经对数据有了深入理解。这些洞察可以直接指导我们的机器学习建模。例如：

花瓣特征比花萼特征更有区分度
setosa与其他两类线性可分
versicolor和virginica在部分特征上有重叠

基于这些观察，我们可以设计更有效的特征工程和模型选择策略。例如，可以尝试以下步骤：

from sklearn.model_selection import train_test_split from sklearn.preprocessing import LabelEncoder from sklearn.ensemble import RandomForestClassifier from sklearn.metrics import classification_report # 准备数据 X = df.iloc[:, :4] y = LabelEncoder().fit_transform(df['species']) # 划分训练测试集 X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42) # 训练模型 model = RandomForestClassifier(random_state=42) model.fit(X_train, y_train) # 评估 y_pred = model.predict(X_test) print(classification_report(y_test, y_pred, target_names=iris.target_names))

可视化不仅帮助我们理解数据，还能解释模型的行为。例如，我们可以可视化特征重要性：

importances = model.feature_importances_ features = df.columns[:4] plt.figure(figsize=(10, 6)) plt.barh(features, importances) plt.xlabel('Feature Importance') plt.title('Random Forest Feature Importance') plt.show()

这个分析证实了我们之前的观察：花瓣尺寸比花萼尺寸对分类更重要。

查看全文

http://www.jsqmd.com/news/552075/