当前位置：首页 > news >正文

别再只盯着K-Means了！用sklearn的轮廓系数（silhouette_score）帮你选出最佳聚类算法

news 2026/4/19 23:49:42

用轮廓系数为聚类算法打分：从K-Means到DBSCAN的科学选择指南

当面对一堆未标注的数据时，很多人的第一反应是直接套用K-Means算法——这就像拿到食材只会做炒饭一样。但真实世界的数据分布千奇百怪，有的像瑞士奶酪布满空洞（适合DBSCAN），有的像俄罗斯套娃层层嵌套（适合层次聚类），而K-Means只擅长处理那些"团状"分布的数据。本文将带你用sklearn的轮廓系数这把"尺子"，量化评估不同聚类算法的表现，用数据而非直觉做决策。

1. 为什么需要轮廓系数？

去年我们团队处理用户行为数据时，曾用K-Means强行将用户分成5个群体。上线后发现营销效果极差——原来算法把活跃用户和羊毛党混在了一起。后来用轮廓系数评估才发现，这个数据集用谱聚类效果更好。这个教训告诉我们：没有最好的算法，只有最适合的评估方法。

轮廓系数的精妙之处在于它同时考虑了两个维度：

凝聚度（a(i)）：同簇样本间的紧密程度
分离度（b(i)）：样本与其他簇的疏远程度

计算公式为：

s(i) = (b(i) - a(i)) / max(a(i), b(i))

这个值域在-1到1之间的指标，能直观反映聚类质量：

分数区间	含义	实际问题
0.7-1.0	聚类效果优秀	-
0.5-0.7	结构清晰但有待优化	可能需要调整超参数
0.3-0.5	聚类结果勉强可用	建议尝试其他算法
<0.3	聚类效果不可信	数据可能不适合聚类

注意：轮廓系数对凸形簇更敏感。当数据存在复杂流形结构时，建议结合Calinski-Harabasz指数等指标综合评估

2. 实战对比三大聚类算法

让我们用经典的鸢尾花数据集演示如何科学选择算法。首先加载数据并预处理：

from sklearn.datasets import load_iris from sklearn.preprocessing import StandardScaler iris = load_iris() X = StandardScaler().fit_transform(iris.data)

2.1 K-Means的局限与突破

默认情况下，人们会用肘部法则确定K值：

from sklearn.cluster import KMeans from sklearn.metrics import silhouette_score k_range = range(2, 8) scores = [] for k in k_range: kmeans = KMeans(n_clusters=k, random_state=42) labels = kmeans.fit_predict(X) scores.append(silhouette_score(X, labels))

结果可能让你惊讶：

K值	轮廓系数
2	0.58
3	0.46
4	0.39
5	0.35

虽然真实类别数是3，但K=2时轮廓系数反而更高——这说明数据本身可能存在层级结构，单纯增加簇数反而破坏自然分组。

2.2 DBSCAN的密度魔法

对于密度不均的数据，试试DBSCAN：

from sklearn.cluster import DBSCAN eps_values = [0.3, 0.5, 0.7] min_samples = [3, 5, 7] results = [] for eps in eps_values: for min_s in min_samples: dbscan = DBSCAN(eps=eps, min_samples=min_s) labels = dbscan.fit_predict(X) if len(set(labels)) > 1: # 排除所有样本归为一类的情况 score = silhouette_score(X, labels) results.append((eps, min_s, score))

最佳参数组合可能产生0.62的轮廓系数，比K-Means更优。但要注意：

当eps过大时，所有样本会被归为同一类（轮廓系数无效）
数据需要标准化，否则密度计算会被量纲影响

2.3 层次聚类的嵌套优势

对于层级结构明显的数据，层次聚类是更好的选择：

from sklearn.cluster import AgglomerativeClustering linkage = ['ward', 'complete', 'average'] scores = [] for link in linkage: agg = AgglomerativeClustering(n_clusters=3, linkage=link) labels = agg.fit_predict(X) scores.append(silhouette_score(X, labels))

结果对比：

连接方式	轮廓系数	特点
ward	0.51	适合欧式空间
complete	0.49	对异常值鲁棒
average	0.53	平衡各维度影响

3. 高级技巧与避坑指南

3.1 样本级诊断工具

silhouette_samples能定位问题样本：

from sklearn.metrics import silhouette_samples import numpy as np sample_scores = silhouette_samples(X, labels) problem_samples = np.where(sample_scores < 0)[0] # 找出分配错误的样本

我曾用这个方法发现：某电商数据中，高消费低频用户总是被错误归类。后来发现需要先对购买频率和金额做对数变换。

3.2 可视化决策

结合轮廓分析图更直观：

import matplotlib.pyplot as plt from sklearn.metrics import silhouette_samples def plot_silhouette(X, labels): n_clusters = len(set(labels)) sample_scores = silhouette_samples(X, labels) fig, ax = plt.subplots(figsize=(8, 6)) y_lower = 10 for i in range(n_clusters): ith_cluster_scores = sample_scores[labels == i] ith_cluster_scores.sort() size = ith_cluster_scores.shape[0] y_upper = y_lower + size ax.fill_betweenx(np.arange(y_lower, y_upper), 0, ith_cluster_scores, alpha=0.7) ax.text(-0.05, y_lower + 0.5 * size, str(i)) y_lower = y_upper + 10 ax.set_xlabel("Silhouette coefficient values") ax.set_ylabel("Cluster label") ax.axvline(x=np.mean(sample_scores), color="red", linestyle="--")

3.3 特殊数据结构的处理

当遇到以下情况时，需要特别处理：

高维数据：先使用PCA降维再计算轮廓系数

from sklearn.decomposition import PCA X_pca = PCA(n_components=0.95).fit_transform(X)

非欧式数据：改用适合的metric

# 对于文本数据使用余弦相似度 silhouette_score(X, labels, metric='cosine')

超大样本量：使用sample_size参数

silhouette_score(X, labels, sample_size=1000, random_state=42)

4. 超越轮廓系数：多维度评估框架

虽然轮廓系数很强大，但明智的数据科学家会建立综合评估体系：

稳定性检验：通过bootstrap采样观察聚类结果波动

from sklearn.utils import resample stability_scores = [] for _ in range(10): X_resampled = resample(X) labels = model.fit_predict(X_resampled) stability_scores.append(silhouette_score(X_resampled, labels))