当前位置：首页 > news >正文

K-means聚类实战：如何用Python可视化评估最佳K值（手把手画图+SSE分析指南）

news 2026/6/15 17:32:26

K-means聚类实战：如何用Python可视化评估最佳K值

当你在Jupyter Notebook里运行完K-means算法后，面对屏幕上那一堆簇标签和中心点坐标，是否经常陷入这样的困惑：这个K值选得对吗？为什么K=4的结果看起来比K=3更"整齐"却不符合肘部法则？今天我们就用可视化+量化指标双保险的方式，彻底解决这个机器学习中的经典难题。

1. 聚类结果可视化的艺术

好的聚类可视化不仅能验证模型效果，更能揭示数据的内在结构。我们先从最基础的散点图开始，逐步构建专业级的分析视图。

1.1 基础散点图绘制技巧

使用matplotlib绘制聚类结果时，90%的新手都会犯这两个错误：颜色对比度不足和中心点标识不明显。下面这段改进版的代码解决了这些问题：

def plot_clusters(data, centers, labels, palette='tab10'): plt.figure(figsize=(10,6)) # 数据点绘制 scatter = plt.scatter(data[:,0], data[:,1], c=labels, cmap=palette, s=50, alpha=0.6, edgecolor='w') # 中心点标记 plt.scatter(centers[:,0], centers[:,1], c=range(len(centers)), cmap=palette, marker='X', s=200, edgecolor='k', linewidth=1.5) # 添加图例 legend_elements = [plt.Line2D([0], [0], marker='o', color='w', markerfacecolor=scatter.cmap(i/10), markersize=10) for i in range(len(centers))] plt.legend(legend_elements, [f'Cluster {i}' for i in range(len(centers))]) plt.grid(True, alpha=0.3) plt.title(f'K-means Clustering (K={len(centers)})', pad=20)

关键改进点：

使用tab10色系确保颜色区分度
中心点采用X标记并添加黑色边框
添加专业化的图例系统
调整透明度(alpha)避免点重叠导致的视觉误差

1.2 多子图对比分析

要评估不同K值的优劣，我们需要将多个聚类结果放在同一视图下对比。plt.subplots()配合循环可以高效实现：

k_values = [2, 3, 4, 5] fig, axes = plt.subplots(2, 2, figsize=(14,10)) for k, ax in zip(k_values, axes.ravel()): model = KMeans(n_clusters=k) labels = model.fit_predict(data) ax.scatter(data[:,0], data[:,1], c=labels, cmap='tab10', s=40) ax.scatter(model.cluster_centers_[:,0], model.cluster_centers_[:,1], marker='X', c='red', s=150) ax.set_title(f'K={k}', fontsize=12) ax.grid(True, alpha=0.3) plt.tight_layout()

2. SSE分析与肘部法则实战

可视化只能提供直观感受，我们还需要量化指标来佐证判断。误差平方和(SSE)是最常用的评估指标。

2.1 SSE的计算原理

SSE公式表示为：

SSE = Σ(每个点到其簇中心的距离²)

Python实现代码：

def calculate_sse(data, centers, labels): sse = 0 for i in range(len(centers)): cluster_data = data[labels == i] distances = np.sum((cluster_data - centers[i])**2, axis=1) sse += np.sum(distances) return sse

2.2 肘部曲线的绘制与分析

通过遍历不同K值计算SSE，我们可以得到关键的肘部曲线：

sse_values = [] k_range = range(1, 10) for k in k_range: kmeans = KMeans(n_clusters=k) kmeans.fit(data) sse_values.append(kmeans.inertia_) # inertia_即SSE plt.figure(figsize=(10,6)) plt.plot(k_range, sse_values, 'bo-') plt.xlabel('Number of clusters K') plt.ylabel('SSE') plt.title('Elbow Method For Optimal K') plt.xticks(k_range) plt.grid(True)

解读技巧：

寻找曲线拐点（肘部）对应的K值
关注SSE下降速率明显变缓的点
当K增大但SSE改善不明显时，就是最佳K值

2.3 进阶指标：轮廓系数

除了SSE，轮廓系数(Silhouette Score)能从簇内紧密度和簇间分离度两个维度评估聚类质量：

from sklearn.metrics import silhouette_score silhouette_scores = [] for k in range(2, 10): kmeans = KMeans(n_clusters=k) preds = kmeans.fit_predict(data) score = silhouette_score(data, preds) silhouette_scores.append(score) plt.plot(range(2,10), silhouette_scores, 'rx-') plt.xlabel('K') plt.ylabel('Silhouette Score') plt.title('Silhouette Analysis')

轮廓系数取值范围[-1,1]，越接近1表示聚类效果越好。

3. 高维数据的可视化技巧

当数据维度超过3维时，我们需要特殊技巧来可视化聚类结果。

3.1 PCA降维可视化

from sklearn.decomposition import PCA pca = PCA(n_components=2) data_2d = pca.fit_transform(data) kmeans = KMeans(n_clusters=3) labels = kmeans.fit_predict(data) plt.scatter(data_2d[:,0], data_2d[:,1], c=labels)

3.2 t-SNE降维方案

对于更复杂的非线性结构，t-SNE通常效果更好：

from sklearn.manifold import TSNE tsne = TSNE(n_components=2, perplexity=30) data_tsne = tsne.fit_transform(data) plt.scatter(data_tsne[:,0], data_tsne[:,1], c=labels, alpha=0.6)

4. 实战案例：电商用户分群

让我们通过一个真实案例巩固所学内容。假设我们有电商平台的用户消费数据，包含以下特征：

年度消费金额
购买频次
最近一次消费间隔
平均订单价值

4.1 数据预处理

from sklearn.preprocessing import StandardScaler scaler = StandardScaler() scaled_data = scaler.fit_transform(raw_data) # 检查最佳K值 sse = [] for k in range(1, 10): kmeans = KMeans(n_clusters=k) kmeans.fit(scaled_data) sse.append(kmeans.inertia_)

4.2 多维指标分析

创建综合评估表格：

K值	SSE	轮廓系数	聚类解释性
2	4500	0.62	一般
3	3200	0.68	最佳
4	2800	0.65	较好
5	2500	0.59	过度分割

4.3 业务解读

通过分析各簇特征，我们可以给出业务建议：

cluster_profiles = pd.DataFrame(scaler.inverse_transform(kmeans.cluster_centers_), columns=['消费金额','购买频次','消费间隔','订单价值']) cluster_profiles['人数占比'] = np.bincount(labels)/len(labels) print(cluster_profiles)

输出示例：