当前位置：首页 > news >正文

KMeans聚类中的质心计算：从理论到实践的完整指南

news 2026/3/27 2:12:24

KMeans聚类中的质心计算：从理论到实践的完整指南

在机器学习的无监督学习领域，聚类分析一直扮演着探索数据内在结构的核心角色。想象一下，你面对着一份尚未被标记的客户数据集，其中包含了购买频率、平均订单价值、浏览时长等多个维度的信息。你的目标是将这些客户自然地分成几个具有相似特征的群体，以便进行精准营销或服务优化。这时，KMeans算法往往会成为你的首选工具。它简洁、高效，其核心思想——通过迭代寻找数据点的“中心”来划分簇——直观且强大。然而，这个被称为“质心”的中心点，其计算远不止是求个平均数那么简单。它背后蕴藏着优化理论的精髓，是算法收敛和聚类效果优劣的决定性因素。对于已经熟悉sklearn中KMeans类fit()方法一键操作的数据科学从业者而言，深入理解质心计算，意味着能从“调用者”转变为“掌控者”，能够诊断聚类过程中的问题，调整策略，甚至为特定业务场景定制优化目标。本文将带你穿透API的封装，从数学原理的基石出发，一步步构建对质心计算的深刻认知，并通过丰富的代码实践，让你获得在真实项目中灵活运用和调试KMeans的能力。

1. 质心：KMeans算法跳动的心脏

要理解KMeans，必须首先理解质心。在二维或三维空间中，我们可以直观地将一个簇的质心想象为这个簇所有点的“平均位置”，就像物理系统中物体的重心一样。但在高维数据空间（例如，一个描述用户的数十个特征向量），这种几何直观虽然减弱，但数学定义依然清晰有力：质心是其所属簇中所有样本点在每个特征维度上的算术平均值。

1.1 数学定义与惯性（Inertia）

假设我们有一个包含m个样本的簇C_j，每个样本是一个n维向量x^{(i)} = (x_1^{(i)}, x_2^{(i)}, ..., x_n^{(i)})。那么该簇的质心μ_j的第k个维度分量计算公式为：

[ \mu_{jk} = \frac{1}{m} \sum_{x^{(i)} \in C_j} x_k^{(i)} ]

用向量形式简洁表示为：

[ \mu_j = \frac{1}{|C_j|} \sum_{x^{(i)} \in C_j} x^{(i)} ]

质心不仅仅是几何中心，它更是KMeans算法优化目标的核心。这个目标函数通常被称为簇内平方和或惯性：

[ \text{Inertia}(C_j) = \sum_{x^{(i)} \in C_j} ||x^{(i)} - \mu_j||^2 ]

这里，||.||表示欧几里得范数（L2范数），即我们常说的欧氏距离。惯性衡量的是簇内所有样本到其质心的距离平方和，它直观地反映了簇的“紧密”程度。惯性越小，说明簇内样本彼此越相似，围绕质心聚集得越紧密。

注意：惯性（Inertia）是KMeans算法中一个至关重要的概念，它不仅是评估聚类效果的内部指标，更是驱动算法迭代收敛的“损失函数”。算法本质上就是在最小化所有簇的惯性之和。

1.2 KMeans作为优化问题

将视角提升，整个KMeans算法的过程可以被形式化为一个组合优化问题：

给定样本集X和预设的簇数量K，寻找K个质心{μ_1, μ_2, ..., μ_K}以及样本到簇的分配方案，使得所有簇的惯性总和（Total Inertia）最小化。

[ \min_{C_1,...,C_K, \mu_1,...,\mu_K} \sum_{j=1}^{K} \sum_{x^{(i)} \in C_j} ||x^{(i)} - \mu_j||^2 ]

这是一个NP难问题，无法直接求出全局最优解。KMeans采用了一种启发式迭代算法（Lloyd算法）来寻找局部最优解，其步骤清晰明了：

初始化：随机选择K个样本点作为初始质心。
分配阶段：遍历所有样本点，计算每个点到所有质心的距离，并将其分配给距离最近的质心所在的簇。
更新阶段：对于每个新形成的簇，重新计算该簇所有样本点的均值，作为新的质心。
迭代：重复步骤2和步骤3，直到满足停止条件（例如，质心的位置变化小于某个阈值，或达到最大迭代次数）。

这个过程中，更新阶段的核心操作正是质心的重计算。每一次重新计算质心，都朝着降低总体惯性（Total Inertia）的方向前进一步。我们可以从数学上证明，在分配阶段固定簇成员的情况下，取该簇样本的均值作为新质心，是使得该簇惯性最小的唯一解。正是这种“分配-更新”的交替最小化策略，保证了算法能够稳定收敛（尽管可能是局部最优）。

2. 从零开始：手动实现质心计算与KMeans迭代

理解了理论，最好的巩固方式就是动手实现。我们将不使用sklearn，而是用NumPy从零构建一个简易的KMeans，重点关注质心计算和迭代过程。

2.1 核心工具函数：距离与质心

首先，实现两个最基础的工具函数：计算距离和计算质心。

import numpy as np def euclidean_distance(x, y): """ 计算两个n维向量之间的欧氏距离。 参数: x (ndarray): 第一个向量。 y (ndarray): 第二个向量。 返回: float: 欧氏距离。 """ return np.sqrt(np.sum((x - y) ** 2)) def compute_centroid(cluster_points): """ 计算一个簇的质心。 参数: cluster_points (ndarray): 形状为 (m, n) 的数组，代表簇内的m个n维样本点。 返回: ndarray: 形状为 (n,) 的质心向量。 """ if len(cluster_points) == 0: # 如果簇为空，返回一个零向量或进行其他处理。在实际KMeans中应避免此情况。 return np.zeros(cluster_points.shape[1]) return np.mean(cluster_points, axis=0)

让我们测试一下质心计算函数：

# 创建一个简单的三维数据簇 cluster_data = np.array([[1.0, 2.0, 3.0], [2.0, 3.0, 4.0], [0.0, 1.0, 2.0]]) centroid = compute_centroid(cluster_data) print(f"簇数据:\n{cluster_data}") print(f"计算得到的质心: {centroid}") # 输出: 计算得到的质心: [1. 2. 3.]

可以看到，三个样本点在每个维度上求平均，得到了[1., 2., 3.]这个质心。

2.2 构建完整的KMeans迭代循环

接下来，我们将上述函数嵌入到完整的KMeans算法框架中。

class SimpleKMeans: def __init__(self, n_clusters=3, max_iter=100, tol=1e-4, random_state=None): """ 初始化简易KMeans。 参数: n_clusters (int): 簇的数量。 max_iter (int): 最大迭代次数。 tol (float): 容忍度，质心移动小于此值则停止迭代。 random_state (int): 随机种子，用于复现结果。 """ self.n_clusters = n_clusters self.max_iter = max_iter self.tol = tol self.random_state = random_state self.centroids = None self.labels_ = None self.inertia_ = None def fit(self, X): """ 拟合模型。 参数: X (ndarray): 形状为 (m_samples, n_features) 的训练数据。 """ np.random.seed(self.random_state) m, n = X.shape # 1. 初始化质心：随机选择K个样本点 random_indices = np.random.choice(m, self.n_clusters, replace=False) self.centroids = X[random_indices].copy() print(f"初始质心:\n{self.centroids}") for iteration in range(self.max_iter): # 2. 分配阶段：计算每个样本到所有质心的距离，并分配标签 distances = np.zeros((m, self.n_clusters)) for j in range(self.n_clusters): # 向量化计算距离，比循环每个样本更快 distances[:, j] = np.linalg.norm(X - self.centroids[j], axis=1) ** 2 self.labels_ = np.argmin(distances, axis=1) # 3. 更新阶段：计算新质心 new_centroids = np.zeros((self.n_clusters, n)) for j in range(self.n_clusters): mask = (self.labels_ == j) if np.any(mask): # 关键步骤：调用 compute_centroid 函数 new_centroids[j] = compute_centroid(X[mask]) else: # 如果某个簇没有分配到任何点，保持原质心或重新初始化（这里选择保持） new_centroids[j] = self.centroids[j] # 4. 检查收敛条件：质心变化是否小于容忍度 centroid_shift = np.linalg.norm(new_centroids - self.centroids) print(f"迭代 {iteration+1}: 质心偏移量 = {centroid_shift:.6f}") if centroid_shift < self.tol: print(f"在迭代 {iteration+1} 后收敛。") break self.centroids = new_centroids.copy() # 计算最终的惯性（总簇内平方和） self.inertia_ = 0 for j in range(self.n_clusters): mask = (self.labels_ == j) if np.any(mask): # 计算该簇所有样本到其质心的距离平方和 self.inertia_ += np.sum(np.linalg.norm(X[mask] - self.centroids[j], axis=1) ** 2) def predict(self, X): """预测新样本点所属的簇。""" distances = np.zeros((X.shape[0], self.n_clusters)) for j in range(self.n_clusters): distances[:, j] = np.linalg.norm(X - self.centroids[j], axis=1) return np.argmin(distances, axis=1)

现在，让我们用著名的鸢尾花（Iris）数据集的一部分来测试我们的实现，并与sklearn的结果进行对比。

from sklearn.datasets import load_iris from sklearn.preprocessing import StandardScaler # 加载数据，只使用前两个特征以便可视化 iris = load_iris() X = iris.data[:, :2] # 只取萼片长度和宽度 scaler = StandardScaler() X_scaled = scaler.fit_transform(X) # 标准化，使KMeans效果更好 # 使用我们的SimpleKMeans my_kmeans = SimpleKMeans(n_clusters=3, max_iter=100, random_state=42) my_kmeans.fit(X_scaled) print(f"\n我们的模型最终质心:\n{my_kmeans.centroids}") print(f"我们的模型惯性 (Inertia): {my_kmeans.inertia_:.4f}") # 使用sklearn的KMeans from sklearn.cluster import KMeans sk_kmeans = KMeans(n_clusters=3, max_iter=100, random_state=42, tol=1e-4) sk_kmeans.fit(X_scaled) print(f"\nSklearn模型最终质心:\n{sk_kmeans.cluster_centers_}") print(f"Sklearn模型惯性 (Inertia): {sk_kmeans.inertia_:.4f}") # 比较标签一致性（由于初始化和标签排列问题，直接比较可能不同，但聚类结构应相似） print(f"\n标签一致的样本比例: {np.mean(my_kmeans.labels_ == sk_kmeans.labels_):.2%}")

通过这个从零开始的过程，你不仅亲手实现了质心计算，还看到了它是如何嵌入到迭代优化框架中，驱动着整个聚类过程。你会发现，尽管我们的简易版本在效率上无法与高度优化的sklearn相媲美，但其结果在本质上是一致的。

3. 深入`sklearn`：质心计算的实践细节与调优

在实际项目中，我们几乎总是使用sklearn这样的成熟库。了解其内部关于质心计算的细节，能帮助我们更好地使用它。

3.1`sklearn.cluster.KMeans`的关键参数

sklearn的KMeans类提供了丰富的参数来控制算法行为，其中多个参数直接或间接影响质心的初始化和更新。

参数	类型	默认值	说明
`n_clusters`	int	8	要形成的簇数，即质心数量K。
`init`	str / array	‘k-means++’	初始化方法。这是影响结果质量和稳定性的关键。
`n_init`	int	10	使用不同质心种子运行算法的次数。最终结果取惯性最小的那次。
`max_iter`	int	300	单次运行的最大迭代次数。
`tol`	float	1e-4	关于惯性变化的容忍度，用于声明收敛。
`algorithm`	str	“auto”	KMeans算法变体，如“elkan”或“full”。

其中，init参数至关重要，它决定了质心计算的起点：

'random': 随机选择K个观测值作为初始质心。简单但可能导致次优解或不稳定。
'k-means++'(默认): 一种智能初始化方案。它通过使初始质心彼此远离，来加速收敛并提高找到全局最优解的概率。这是实践中几乎总是推荐的选择。
自定义数组: 可以传递一个形状为(n_clusters, n_features)的数组来指定初始质心。

3.2 访问与利用质心信息

训练完成后，模型对象中存储了与质心相关的关键属性：

# 接续上面的sklearn示例 # 访问质心坐标 print("簇中心坐标:") print(sk_kmeans.cluster_centers_) # 访问每个样本的标签 print("\n前10个样本的预测标签:", sk_kmeans.labels_[:10]) # 访问总惯性 print(f"\n模型总惯性: {sk_kmeans.inertia_:.4f}") # 计算每个样本到其所属质心的距离 distances_to_own_centroid = np.zeros(X_scaled.shape[0]) for i in range(X_scaled.shape[0]): centroid = sk_kmeans.cluster_centers_[sk_kmeans.labels_[i]] distances_to_own_centroid[i] = euclidean_distance(X_scaled[i], centroid) print(f"\n样本到其质心的平均距离: {np.mean(distances_to_own_centroid):.4f}")

3.3 利用质心进行数据分析与可视化

质心不仅是算法内部变量，更是理解聚类结果的有力工具。

1. 特征重要性分析：通过比较不同簇的质心在各个特征上的值，可以解释每个簇的“画像”。

import pandas as pd # 假设我们有特征名称 feature_names = ['sepal_length', 'sepal_width'] centroids_df = pd.DataFrame(sk_kmeans.cluster_centers_, columns=feature_names) centroids_df.index.name = 'Cluster' print(centroids_df)

通过这个表格，你可以清晰地看到：Cluster 0的样本平均萼片长度较长但宽度较窄，而Cluster 2则相反。这为每个簇赋予了业务意义。

2. 可视化质心与簇分布：

import matplotlib.pyplot as plt plt.figure(figsize=(10, 6)) # 绘制所有样本点，按簇着色 scatter = plt.scatter(X_scaled[:, 0], X_scaled[:, 1], c=sk_kmeans.labels_, cmap='viridis', alpha=0.6, edgecolors='k', s=50) # 绘制质心，用醒目的红色星号标记 plt.scatter(sk_kmeans.cluster_centers_[:, 0], sk_kmeans.cluster_centers_[:, 1], marker='*', s=300, c='red', label='Centroids', edgecolors='black') plt.xlabel('Sepal Length (standardized)') plt.ylabel('Sepal Width (standardized)') plt.title('KMeans Clustering of Iris Data with Centroids') plt.legend() plt.colorbar(scatter, label='Cluster Label') plt.grid(True, linestyle='--', alpha=0.5) plt.show()

这幅图直观地展示了质心如何作为每个簇的“引力中心”，以及样本点围绕质心的分布情况。

3. 利用质心进行异常检测：一个样本点到其所属簇质心的距离异常大，可能意味着它是一个离群点或噪声点。

# 计算每个样本到其质心的距离（已在上方计算） # 设定一个阈值（例如，距离的均值+3倍标准差） threshold = np.mean(distances_to_own_centroid) + 3 * np.std(distances_to_own_centroid) outliers = distances_to_own_centroid > threshold print(f"检测到 {np.sum(outliers)} 个可能的异常点。")

4. 超越基础：质心计算的高级话题与挑战

掌握了基础原理和标准用法后，我们还需要面对现实世界数据带来的挑战，并了解一些高级技术。

4.1 初始化的重要性与“k-means++”详解

糟糕的初始化可能导致KMeans陷入局部最优，产生质量很差的聚类。k-means++算法通过一个概率性的过程来选择初始质心：

从数据集中随机均匀地选择第一个质心。
对于数据集中的每个点x，计算其与已选质心的最短距离D(x)。
依据概率D(x)² / Σ D(x)²选择下一个质心。距离现有质心越远的点，被选中的概率越高。
重复步骤2和3，直到选出K个质心。

这个过程确保了初始质心在数据空间中分散开，从而在大多数情况下都能得到一个很好的起点。在sklearn中，这是默认设置，也是你通常不需要更改的选项。

4.2 处理非数值数据与自定义距离度量

标准的KMeans使用欧氏距离，并基于均值计算质心。这隐含了两个假设：

特征空间是欧几里得空间。
均值是数据集中趋势的有效度量。

当这些假设不成立时，我们需要调整质心的概念：

分类数据：对于分类特征，计算“均值”没有意义。一种常见方法是使用K-Modes或K-Prototypes算法，它们分别用“众数”和混合（数值均值/分类众数）来定义“质心”。
文本数据：在使用TF-IDF向量化的文本数据上，欧氏距离和均值计算通常效果尚可，但余弦相似度可能更合适。这时，可以尝试使用球形KMeans，它旨在最大化向量与质心之间的余弦相似度，其“质心”是簇内向量的平均方向（需进行归一化）。
自定义距离：如果业务逻辑需要特定的距离度量（如动态时间规整DTW用于时间序列），标准的基于均值的质心更新步骤可能不再是最优的。这时需要使用更通用的K-Medoids算法（如PAM），它不从簇中计算均值点，而是选择簇中一个实际的样本点作为中心点（Medoid），使其到簇内所有其他点的距离之和最小。

4.3 质心不稳定性与评估

KMeans的结果对初始化和数据扰动可能敏感。为了获得可靠的结果，最佳实践包括：

多次运行：始终设置n_init > 1（默认是10）。sklearn会自动选择惯性最小的一次运行结果。
使用肘部法则（Elbow Method）结合质心稳定性：在确定最佳K值时，除了看惯性随K下降的曲线，还可以观察质心位置的稳定性。对数据子集多次运行KMeans，如果对于某个K值，每次得到的质心位置都很接近，说明这个K值比较稳定可靠。

from sklearn.utils import resample def assess_centroid_stability(X, n_clusters, n_iterations=10, sample_frac=0.8): """ 通过自助采样评估质心稳定性。 """ centroid_variations = [] for _ in range(n_iterations): # 自助采样 X_sample = resample(X, replace=True, n_samples=int(len(X)*sample_frac)) kmeans = KMeans(n_clusters=n_clusters, init='k-means++', n_init=1, random_state=None).fit(X_sample) centroid_variations.append(kmeans.cluster_centers_) # 简单计算质心位置的标准差（这里需要谨慎对齐簇的标签，是一个简化示例） # 更严谨的做法需要使用匈牙利算法等对齐簇标签后再计算差异。 return centroid_variations # 尝试不同的K值 for k in [2, 3, 4, 5]: variations = assess_centroid_stability(X_scaled, n_clusters=k, n_iterations=5) print(f"K={k}时，质心位置在不同采样间的变化情况（需进一步量化分析）")

4.4 大规模数据与增量计算

对于海量数据，无法一次性加载到内存，或者数据是流式到来的。这时，标准KMeans需要变体。Mini-Batch KMeans是常用的解决方案。它在每次迭代中，不是使用全部数据，而是使用一个随机小批量（mini-batch）来更新质心。其质心更新公式是一个指数加权移动平均：

[ \mu_j^{(t+1)} = \mu_j^{(t)} + \eta_t ( \bar{x} - \mu_j^{(t)} ) ]

其中，μ_j^{(t)}是当前质心，η_t是学习率（通常随迭代衰减），x̄是当前小批量中属于簇j的样本的平均值。这种在线学习的方式，使得质心能够逐步“漂移”以适应新数据，非常适合大规模或流式数据场景。

from sklearn.cluster import MiniBatchKMeans mbk = MiniBatchKMeans(n_clusters=3, batch_size=100, random_state=42) # 假设X_large是一个非常大的数组 # mbk.partial_fit可以用于在线学习 # 或者直接fit，内部会使用小批量 mbk.fit(X_scaled) print("Mini-Batch KMeans 质心:\n", mbk.cluster_centers_)

质心计算，这个看似简单的求均值操作，实则是KMeans算法灵魂所在。它连接着抽象的优化目标与具体的迭代步骤，是理解算法行为、诊断问题、解释结果和进行高级应用的关键。从手动实现中巩固数学本质，在sklearn的实践中掌握工业级工具，再到思考非标准数据和海量场景下的挑战，这条学习路径让你不再只是一个API调用者。下次当你在项目中使用KMeans().fit()时，脑海中浮现的将是数据点在特征空间中如何被无形的“引力中心”所吸引、质心如何一步步调整自己位置以最小化全局惯性的生动图景。这种深度的理解，是构建稳健、可解释的机器学习解决方案的坚实基础。在实际工作中，我常常会先快速用默认参数跑一个KMeans基线，然后一定会回头检查inertia_和cluster_centers_，并结合业务知识去解读这些质心坐标的含义，这个习惯帮助我发现了不少数据中隐藏的细分模式。

查看全文

http://www.jsqmd.com/news/450613/