当前位置：首页 > news >正文

KMeans 聚类算法实战：从数据生成到可视化全过程详解

news 2026/5/12 14:34:10

Complete KMeans Clustering Practice (with Evaluation)

一、生成模拟数据

1. Generate Synthetic Data

from sklearn.datasets import make_blobs X, y = make_blobs( n_samples=300, n_features=2, centers=3, random_state=42 )

我们使用make_blobs生成三团二维数据。
We usemake_blobsto generate three clusters in 2D space.

参数说明 / Parameter explanation:

n_samples=300：生成300个样本
Generate 300 samples
n_features=2：二维特征，便于可视化
2 features for visualization
centers=3：数据分为3个中心
3 underlying centers
random_state=42：保证结果可复现
Ensure reproducibility

虽然返回了y（真实标签），但聚类属于无监督学习，不参与训练。

Althoughy(true labels) is returned, clustering is unsupervised and does not use it for training.

二、可视化原始数据

2. Visualize Raw Data

import matplotlib.pyplot as plt fig, ax = plt.subplots(2, figsize=(10,10)) ax[0].scatter(X[:,0], X[:,1], c="gray", label="原始数据") ax[0].set_title("原始数据（无监督）") ax[0].legend()

所有数据点均为灰色，因为我们假设不知道类别。
All points are shown in gray since no labels are assumed.

可以肉眼观察到三团数据，但模型此时并不知道它们属于不同类别。
We can visually see three groups, but the model does not know that yet.

三、KMeans 聚类

3. Apply KMeans Clustering

from sklearn.cluster import KMeans kmeans = KMeans(n_clusters=3) kmeans.fit(X)

这里使用的是K-means clustering。

We applyK-means clustering, a partition-based clustering algorithm.

核心思想 / Core idea:

随机初始化 K 个中心
Randomly initialize K centers
将样本分配到最近的中心
Assign samples to nearest center
更新中心为簇内均值
Update centers as cluster means
重复迭代直到收敛
Iterate until convergence

四、获取簇中心与预测结果

4. Get Cluster Centers and Predictions

centers = kmeans.cluster_centers_ print(centers) y_pred = kmeans.predict(X)

cluster_centers_表示最终的簇中心坐标。
cluster_centers_contains the final cluster centroids.

y_pred表示每个样本的簇编号。
y_predrepresents predicted cluster labels.

五、可视化聚类结果

5. Visualize Clustering Result

ax[1].scatter(X[:,0], X[:,1], c="gray", label="聚类数据") ax[1].scatter(centers[:,0], centers[:,1], s=200, c="red", label="簇中心") ax[1].set_title("KMeans 结果 K=3") ax[1].legend() plt.show()

红色点表示聚类中心。
Red points indicate cluster centroids.

六、数值方式评估聚类效果

6. Evaluate Clustering Performance

由于聚类没有准确率指标，我们通常使用内部评价指标。
Since clustering has no accuracy metric, we use internal evaluation metrics.

类内平方和（SSE）

print(kmeans.inertia_)

inertia_表示类内平方误差和。
inertia_represents the Sum of Squared Errors (SSE).

特点 / Characteristics:

越小表示簇内越紧凑
Smaller means more compact clusters
K 增大时一定下降
Always decreases as K increases

轮廓系数（Silhouette Score）

from sklearn.metrics import silhouette_score print(silhouette_score(X, y_pred))

衡量样本在本簇内的紧密程度与邻近簇之间的分离程度。
Measures cohesion within cluster and separation from other clusters.

取值范围 / Range:

接近 1 → 聚类效果好
Close to 1 → Good clustering
接近 0 → 在边界
Close to 0 → On boundary
小于 0 → 可能分错
Negative → Possibly misclustered

Calinski-Harabasz 指数

from sklearn.metrics import calinski_harabasz_score print(calinski_harabasz_score(X, y_pred))

表示类间方差与类内方差的比值。
Ratio of between-cluster dispersion to within-cluster dispersion.

越大越好
Larger is better
常用于选择最佳 K
Often used to select optimal K

import os os.environ['OMP_NUM_THREADS']='1' import matplotlib.pyplot as plt from sklearn.cluster import KMeans from sklearn.datasets import make_blobs import os os.environ['OMP_NUM_THREADS']='1' #1生成数据 X,y=make_blobs(n_samples=300,n_features=2,centers=3,random_state=42) plt.rcParams["axes.unicode_minus"] = False #2散点图 plt.rcParams["font.sans-serif"] = ["KaiTi"] fig,ax=plt.subplots(2,figsize=(10,10)) ax[0].scatter(X[:,0],X[:,1],c="gray",label="原始数据") ax[0].set_title("原始数据（无监督）") ax[0].legend() #3Kmeans kmeans=KMeans(n_clusters=3) kmeans.fit(X) #4得到聚簇中心点 centers=kmeans.cluster_centers_ print(centers) #预测每个点的分簇标签 y_pred=kmeans.predict(X) #print(y_pred) #按聚簇结果不同颜色 ax[1].scatter(X[:,0],X[:,1],c="gray",label="聚簇结果数据") ax[1].scatter(centers[:,0],centers[:,1],s=200,c="red",label="簇中心") ax[1].set_title("Kmeans结果K=3") ax[1].legend() plt.show() #评估 print(kmeans.inertia_) from sklearn.metrics import silhouette_score,calinski_harabasz_score print(silhouette_score(X,y_pred)) print(calinski_harabasz_score(X,y_pred))

查看全文

http://www.jsqmd.com/news/420816/