当前位置：首页 > news >正文

K-Means聚类+PCA降维：高维数据聚类的最优组合实战指南

news 2026/3/26 20:20:40

在大数据分析和机器学习场景中，高维数据（如用户行为特征、图像像素、传感器数据）的聚类分析一直是核心难点——维度越多，数据稀疏性越高，K-Means等聚类算法的计算效率和效果会大幅下降，这就是常说的“维度灾难”。而PCA（主成分分析）作为经典的降维手段，能在保留数据核心信息的前提下压缩维度，与K-Means聚类结合，既能解决维度灾难问题，又能提升聚类的效率和可解释性。本文从原理拆解、实战代码到场景优化，全方位讲解如何将两者结合实现高维数据的高效聚类。

一、为什么要结合PCA和K-Means？

1. 单独使用K-Means的痛点

K-Means是基于欧氏距离的聚类算法，在高维数据中存在明显短板：

计算成本高：高维数据的距离计算涉及大量特征运算，数据量稍大就会显著耗时；
距离失效：高维空间中，数据点间的欧氏距离趋于一致，无法有效区分簇；
噪声敏感：高维数据中冗余特征、噪声特征会干扰聚类中心的计算，导致聚类结果失真。

2. PCA的“降维赋能”作用

PCA通过线性变换将高维数据映射到低维空间，核心价值体现在：

保留核心信息：聚焦方差最大的主成分，剔除冗余、噪声特征，压缩维度的同时不丢失关键信息；
降低计算成本：维度减少后，K-Means的距离计算、迭代效率提升数倍；
提升聚类效果：去除无关特征干扰，聚类中心更贴合数据真实分布；
可视化便捷：降维到2-3维后，可直观展示聚类结果，便于业务解读。

3. 组合使用的核心逻辑

PCA做“前置处理”→ K-Means做“聚类核心”：

对原始高维数据标准化，消除量纲影响；
用PCA将数据降维至合适维度（如2-10维）；
基于降维后的数据执行K-Means聚类；
评估聚类效果，优化参数后落地应用。

二、前置准备：环境与数据

1. 安装必备库

本文使用Python生态中最成熟的数据分析和机器学习库，安装命令如下：

# 基础安装（推荐稳定版组合）
pip install numpy==1.24.3 pandas==2.0.3 scikit-learn==1.2.2 matplotlib==3.7.1

numpy/pandas：数据处理与存储；
scikit-learn：实现PCA降维和K-Means聚类；
matplotlib：结果可视化。

2. 准备测试数据

选用经典的“手写数字数据集（Digits）”作为演示——该数据集包含1797个样本，每个样本有64维特征（8×8像素），共10类数字（0-9），典型的高维无标签（聚类场景下）数据，适合验证PCA+K-Means的效果：

import pandas as pd
from sklearn.datasets import load_digits# 加载数据集
digits = load_digits()
# 转换为DataFrame，方便查看
df = pd.DataFrame(data=digits.data,columns=[f'像素{i}' for i in range(64)]
)
# 添加真实标签（仅用于后续验证，聚类时不使用）
df['真实数字'] = digits.target# 查看数据基本信息
print(f"数据集形状：{df.shape}")  # (1797, 65)，1797个样本、64个特征+1个标签
print("数据集前5行：")
print(df.head())
print(f"数字类别：{df['真实数字'].unique()}")  # [0 1 2 3 4 5 6 7 8 9]

三、实战步骤：PCA+K-Means完整流程

步骤1：数据预处理（标准化）

PCA对特征量纲敏感（如像素值0-16与归一化后的0-1会影响结果），必须先标准化：

from sklearn.preprocessing import StandardScaler# 提取特征数据（排除标签列）
X = df.drop('真实数字', axis=1).values
# 初始化标准化器
scaler = StandardScaler()
# 标准化：均值为0，方差为1
X_scaled = scaler.fit_transform(X)print(f"标准化前特征均值：{X[:, 0].mean():.2f}，方差：{X[:, 0].var():.2f}")
print(f"标准化后特征均值：{X_scaled[:, 0].mean():.2f}，方差：{X_scaled[:, 0].var():.2f}")

步骤2：PCA降维（64维→2维）

2.1 基础降维实现

from sklearn.decomposition import PCA
import numpy as np# 初始化PCA模型，指定降维到2维（便于可视化）
pca = PCA(n_components=2, random_state=42)
# 训练并转换数据
X_pca = pca.fit_transform(X_scaled)# 查看降维结果
print(f"原始数据维度：{X_scaled.shape}")  # (1797, 64)
print(f"PCA降维后维度：{X_pca.shape}")    # (1797, 2)# 评估降维效果：解释方差占比（保留的信息比例）
explained_variance = pca.explained_variance_ratio_
print(f"各主成分解释方差占比：{explained_variance.round(3)}")
print(f"累计解释方差占比：{np.sum(explained_variance).round(3)}")  # 约0.285，保留28.5%信息

2.2 动态选择降维维度（按信息保留比例）

若追求更高信息保留率，可指定解释方差占比（如0.95，保留95%核心信息）：

# 初始化PCA，保留95%的信息
pca_95 = PCA(n_components=0.95, random_state=42)
X_pca_95 = pca_95.fit_transform(X_scaled)
print(f"保留95%信息所需维度：{pca_95.n_components_}")  # 约29维（远低于64维）
print(f"累计解释方差占比：{np.sum(pca_95.explained_variance_ratio_).round(3)}")

步骤3：K-Means聚类（基于降维后数据）

3.1 核心聚类实现

from sklearn.cluster import KMeans
from sklearn.metrics import silhouette_score# 初始化K-Means模型（手写数字共10类，指定n_clusters=10）
kmeans = KMeans(n_clusters=10,        # 聚类数init='k-means++',     # 优化初始中心，避免随机初始化的弊端max_iter=300,         # 最大迭代次数n_init=10,            # 多次初始化选最优结果random_state=42       # 固定随机种子，结果可复现
)# 基于PCA降维后的数据训练模型并预测聚类标签
y_pred = kmeans.fit_predict(X_pca)# 评估聚类效果
# 1. 轮廓系数：范围[-1,1]，越接近1聚类效果越好
sil_score = silhouette_score(X_pca, y_pred)
# 2. 平方和误差（SSE）：簇内数据到中心的距离和，越小越好
sse = kmeans.inertia_print(f"聚类轮廓系数：{sil_score.round(3)}")  # 约0.19（因降维到2维损失较多信息）
print(f"簇内平方和误差（SSE）：{sse.round(0)}")
print(f"聚类中心坐标：\n{kmeans.cluster_centers_[:3]}")  # 前3个聚类中心

3.2 选择最优K值（无先验知识时）

若不清楚真实类别数，用“肘部法则+轮廓系数”选最优K：

import matplotlib.pyplot as plt# 测试K值范围：2-15
k_range = range(2, 16)
sse_list = []       # 存储不同K的SSE
sil_score_list = [] # 存储不同K的轮廓系数for k in k_range:kmeans_temp = KMeans(n_clusters=k,init='k-means++',random_state=42)y_temp = kmeans_temp.fit_predict(X_pca)sse_list.append(kmeans_temp.inertia_)sil_score_list.append(silhouette_score(X_pca, y_temp))# 可视化K值选择结果
plt.figure(figsize=(12, 5))# 子图1：肘部法则（SSE曲线）
plt.subplot(1, 2, 1)
plt.plot(k_range, sse_list, 'o-', color='blue')
plt.xlabel('K值（聚类数）')
plt.ylabel('簇内平方和误差（SSE）')
plt.title('肘部法则选择最优K值')
plt.axvline(x=10, color='red', linestyle='--', label='真实K值=10')
plt.legend()# 子图2：轮廓系数曲线
plt.subplot(1, 2, 2)
plt.plot(k_range, sil_score_list, 'o-', color='green')
plt.xlabel('K值（聚类数）')
plt.ylabel('轮廓系数')
plt.title('轮廓系数选择最优K值')
plt.axvline(x=10, color='red', linestyle='--')plt.tight_layout()
plt.show()

步骤4：结果可视化（直观展示聚类效果）

# 可视化PCA降维+K-Means聚类结果
plt.figure(figsize=(10, 8))# 绘制聚类结果（按聚类标签着色）
scatter = plt.scatter(X_pca[:, 0],  # 第一主成分X_pca[:, 1],  # 第二主成分c=y_pred,     # 聚类标签cmap='tab10', # 配色方案（适配10类）alpha=0.7,    # 透明度s=50          # 点大小
)# 绘制聚类中心
plt.scatter(kmeans.cluster_centers_[:, 0],kmeans.cluster_centers_[:, 1],c='black',marker='*',s=200,        # 中心标记大小label='聚类中心'
)# 添加图表信息
plt.xlabel('PCA第一主成分', fontsize=12)
plt.ylabel('PCA第二主成分', fontsize=12)
plt.title('PCA降维后K-Means聚类结果（手写数字数据集）', fontsize=14)
plt.colorbar(scatter, label='聚类标签')
plt.legend()
plt.show()

步骤5：结果验证（与真实标签对比）

K-Means是无监督算法，聚类标签不直接对应真实数字，但可通过“调整兰德指数（ARI）”评估一致性（越接近1，聚类效果越好）：

from sklearn.metrics import adjusted_rand_score# 计算ARI：评估聚类标签与真实标签的一致性
ari = adjusted_rand_score(df['真实数字'], y_pred)
print(f"调整兰德指数（ARI）：{ari.round(3)}")  # 约0.46，说明聚类结果与真实数字有较好的一致性

四、完整可复用代码

将上述步骤封装为函数，便于复用：

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from sklearn.datasets import load_digits
from sklearn.preprocessing import StandardScaler
from sklearn.decomposition import PCA
from sklearn.cluster import KMeans
from sklearn.metrics import silhouette_score, adjusted_rand_scoredef load_data():"""加载并返回手写数字数据集"""digits = load_digits()df = pd.DataFrame(digits.data, columns=[f'像素{i}' for i in range(64)])df['真实数字'] = digits.targetreturn dfdef preprocess_data(df):"""数据标准化"""X = df.drop('真实数字', axis=1).valuesscaler = StandardScaler()X_scaled = scaler.fit_transform(X)return X_scaled, df['真实数字'].valuesdef pca_reduce(X_scaled, n_components=2):"""PCA降维"""pca = PCA(n_components=n_components, random_state=42)X_pca = pca.fit_transform(X_scaled)explained_var = np.sum(pca.explained_variance_ratio_)print(f"PCA累计解释方差占比：{explained_var.round(3)}")return X_pcadef kmeans_cluster(X_pca, n_clusters=10):"""K-Means聚类"""kmeans = KMeans(n_clusters=n_clusters,init='k-means++',max_iter=300,n_init=10,random_state=42)y_pred = kmeans.fit_predict(X_pca)sil_score = silhouette_score(X_pca, y_pred)print(f"聚类轮廓系数：{sil_score.round(3)}")return y_pred, kmeans.cluster_centers_def evaluate_result(y_true, y_pred):"""评估聚类与真实标签的一致性"""ari = adjusted_rand_score(y_true, y_pred)print(f"调整兰德指数（ARI）：{ari.round(3)}")def visualize_result(X_pca, y_pred, centers):"""可视化聚类结果"""plt.figure(figsize=(10, 8))scatter = plt.scatter(X_pca[:,0], X_pca[:,1], c=y_pred, cmap='tab10', alpha=0.7, s=50)plt.scatter(centers[:,0], centers[:,1], c='black', marker='*', s=200, label='聚类中心')plt.xlabel('PCA第一主成分')plt.ylabel('PCA第二主成分')plt.title('PCA+K-Means聚类结果（手写数字）')plt.colorbar(scatter, label='聚类标签')plt.legend()plt.show()if __name__ == '__main__':# 执行完整流程df = load_data()X_scaled, y_true = preprocess_data(df)X_pca = pca_reduce(X_scaled, n_components=2)y_pred, centers = kmeans_cluster(X_pca, n_clusters=10)evaluate_result(y_true, y_pred)visualize_result(X_pca, y_pred, centers)