当前位置：首页 > news >正文

K-Means聚类算法原理与实践指南

news 2026/4/28 2:39:33

1. K-Means算法概述

K-Means是一种无监督学习算法，用于将未标记的数据点自动分组到K个簇中。它的核心思想是通过迭代计算找到K个中心点（称为质心），然后将每个数据点分配到距离最近的质心所在的簇。这个过程就像把一堆混合的水果自动分类到不同的篮子中：苹果归苹果，橙子归橙子。

算法的工作流程可以概括为以下步骤：

随机选择K个初始质心
将每个数据点分配到最近的质心形成簇
重新计算每个簇的质心（取簇内所有点的平均值）
重复步骤2-3直到质心不再显著变化或达到最大迭代次数

注意：K-Means对初始质心的选择很敏感，使用k-means++初始化方法可以显著改善结果质量。

2. K-Means的核心特性解析

2.1 算法优势

简单高效：算法原理直观，实现简单，计算复杂度为O(n×k×i)，其中n是数据点数，k是簇数，i是迭代次数
可扩展性强：能处理百万级数据点，适合大规模数据集
收敛保证：数学上保证会在有限步数内收敛（虽然可能是局部最优）
结果可解释：每个簇的质心提供了该簇的典型特征描述

2.2 局限性

需要预先指定K值：簇的数量需要人为确定，选择不当会影响结果
假设簇呈球形：基于欧式距离的划分使得算法对非球形簇效果不佳
对噪声敏感：异常值可能显著影响质心位置
初始敏感性：不同的初始质心可能导致不同的最终结果

2.3 典型应用场景

客户细分：基于购买行为将客户分组
图像压缩：通过减少颜色数量压缩图像
文档聚类：将相似主题的文档归类
异常检测：识别远离所有质心的异常点
颜色提取：从图像中提取主要颜色

3. 实践教程：客户细分案例

3.1 数据准备

我们使用一个包含10万客户记录的模拟数据集，每个客户有以下特征：

最近购买时间（天）
购买频率（次/月）
平均消费金额（元）
最大单次消费（元）
浏览商品数
加入会员时长（月）
使用优惠券比例
退货率
评价平均分
设备类型（编码为数值）

from sklearn.cluster import KMeans import numpy as np import pandas as pd # 生成模拟数据 np.random.seed(42) n_samples = 100000 n_features = 10 # 创建DataFrame data = pd.DataFrame({ 'recency': np.random.exponential(30, n_samples), 'frequency': np.random.poisson(5, n_samples), 'avg_spend': np.random.normal(500, 150, n_samples), 'max_spend': np.random.normal(800, 300, n_samples), 'products_viewed': np.random.randint(1, 50, n_samples), 'membership': np.random.uniform(0, 36, n_samples), 'coupon_usage': np.random.beta(2, 5, n_samples), 'return_rate': np.random.beta(1, 10, n_samples), 'rating': np.random.uniform(3, 5, n_samples), 'device': np.random.randint(0, 3, n_samples) }) # 标准化数据 from sklearn.preprocessing import StandardScaler scaler = StandardScaler() scaled_data = scaler.fit_transform(data)

3.2 确定最佳K值

使用肘部法则(Elbow Method)确定最优簇数：

import matplotlib.pyplot as plt inertias = [] K_range = range(2, 15) for K in K_range: kmeans = KMeans(n_clusters=K, random_state=42) kmeans.fit(scaled_data) inertias.append(kmeans.inertia_) plt.figure(figsize=(10,6)) plt.plot(K_range, inertias, 'bo-') plt.xlabel('Number of clusters (K)') plt.ylabel('Inertia') plt.title('Elbow Method For Optimal K') plt.xticks(K_range) plt.grid(True) plt.show()

从图中可以观察到在K=5处出现明显的"肘部"，因此选择5个簇。

3.3 模型训练与评估

# 训练最终模型 final_k = 5 kmeans = KMeans(n_clusters=final_k, random_state=42) clusters = kmeans.fit_predict(scaled_data) # 将聚类结果添加到原始数据 data['cluster'] = clusters # 分析各簇特征 cluster_profiles = data.groupby('cluster').mean() print(cluster_profiles)

3.4 结果解读

通过分析各簇的平均特征，我们可以识别出5种典型客户类型：

高价值客户：高消费频率、高平均消费、低退货率
潜在流失客户：近期活跃度低、会员时间长
价格敏感客户：高优惠券使用率、低平均消费
浏览型客户：高商品浏览数但低转化率
新客户：会员时间短、消费模式尚未稳定

4. 关键技术与优化

4.1 质心初始化方法

K-Means++初始化显著优于随机初始化：

第一个质心随机选择
后续质心选择远离已有质心的点，概率与距离平方成正比
减少收敛所需迭代次数，提高结果质量

# 使用k-means++初始化（默认） kmeans = KMeans(n_clusters=5, init='k-means++', n_init=10)

4.2 处理不同尺度特征

当特征量纲差异大时，标准化至关重要：

MinMaxScaler：将特征缩放到[0,1]区间
StandardScaler：使特征均值为0，方差为1（更常用）
RobustScaler：使用中位数和四分位数，对异常值更鲁棒

4.3 加速技巧

Mini-Batch K-Means：每次迭代使用数据子集，适合大数据集

from sklearn.cluster import MiniBatchKMeans mbk = MiniBatchKMeans(n_clusters=5, batch_size=1000)

GPU加速：使用RAPIDS cuML库可提升3-6倍速度

from cuml.cluster import KMeans as cuKMeans gpu_kmeans = cuKMeans(n_clusters=5)

5. 高级应用与变种

5.1 图像压缩

通过减少颜色数量实现图像压缩：

from PIL import Image import numpy as np def compress_image(image_path, K): img = Image.open(image_path) pixels = np.array(img).reshape(-1, 3) kmeans = KMeans(n_clusters=K, random_state=42) labels = kmeans.fit_predict(pixels) compressed = kmeans.cluster_centers_[labels] compressed_img = compressed.reshape(img.size[1], img.size[0], 3) return Image.fromarray(compressed_img.astype('uint8')) # 使用示例 compressed = compress_image('photo.jpg', 16) compressed.save('compressed_16colors.jpg')

5.2 文本聚类

使用TF-IDF向量化文档后进行聚类：

from sklearn.feature_extraction.text import TfidfVectorizer from sklearn.cluster import KMeans documents = ["文档1内容", "文档2内容", ...] # 文档列表 vectorizer = TfidfVectorizer(max_features=1000) X = vectorizer.fit_transform(documents) kmeans = KMeans(n_clusters=10, random_state=42) clusters = kmeans.fit_predict(X)