当前位置：首页 > news >正文

别再只调sklearn的KMeans了！用NumPy从零实现，搞懂质心更新和Inertia计算

news 2026/7/24 17:31:06

从零实现KMeans：用NumPy深入理解聚类算法的数学本质

当我们在机器学习项目中遇到无标签数据时，聚类算法往往成为探索数据内在结构的首选工具。其中KMeans以其简洁高效著称，成为最广泛使用的聚类方法之一。但你是否真正理解每次调用sklearn.cluster.KMeans时，背后究竟发生了什么？本文将带你用NumPy从零实现KMeans算法，深入剖析质心更新和Inertia计算的数学原理，让你彻底掌握这一经典算法的内核机制。

1. KMeans算法核心原理拆解

KMeans的核心思想可以用"交替优化"四个字概括。算法通过不断迭代两个关键步骤来最小化目标函数：首先固定质心位置优化样本分配，然后固定样本分配优化质心位置。这种交替优化的策略保证了每次迭代都能降低目标函数值，最终达到局部最优解。

目标函数（Inertia）的数学表达：

J = Σ(每个样本到其所属质心的欧式距离平方)

这个看似简单的公式实际上定义了聚类质量的量化标准。当J值达到最小时，我们得到最优的聚类结果。值得注意的是，这里的距离度量默认采用欧式距离平方，这既便于计算，也与最小二乘法的思想一致。

让我们用NumPy定义一个计算欧式距离的函数：

def euclidean_distance(X, centers): return np.sqrt(np.sum((X[:, np.newaxis] - centers)**2, axis=2))

2. 从零构建KMeans的完整实现

2.1 初始化阶段的关键考量

KMeans对初始质心的选择非常敏感。常见的初始化策略包括：

随机选择：从数据点中随机选取K个作为初始质心
KMeans++：通过概率分布选择相距较远的点作为质心
基于先验知识：根据领域经验手动指定初始位置

以下是随机初始化的NumPy实现：

def initialize_centroids(X, k): indices = np.random.choice(X.shape[0], k, replace=False) return X[indices]

2.2 迭代过程的完整实现

完整的KMeans迭代过程包含三个核心步骤：距离计算、簇分配和质心更新。让我们用NumPy一步步实现：

def kmeans(X, k, max_iter=100): # 初始化质心 centroids = initialize_centroids(X, k) for _ in range(max_iter): # 计算距离矩阵 distances = np.linalg.norm(X[:, np.newaxis] - centroids, axis=2) # 分配簇标签 labels = np.argmin(distances, axis=1) # 更新质心 new_centroids = np.array([X[labels == i].mean(axis=0) for i in range(k)]) # 收敛判断 if np.all(centroids == new_centroids): break centroids = new_centroids # 计算最终Inertia inertia = np.sum([np.sum((X[labels == i] - centroids[i])**2) for i in range(k)]) return labels, centroids, inertia

注意：实际应用中应该添加对空簇的处理逻辑，避免因某个簇没有样本点导致计算错误。

3. Inertia的深入分析与优化

3.1 Inertia的计算原理

Inertia衡量的是簇内样本的紧密程度，计算公式为：

Inertia = Σ(每个样本到其所属质心的距离平方)

在NumPy中，我们可以高效地计算这个值：

def compute_inertia(X, labels, centroids): return np.sum((X - centroids[labels])**2)

3.2 Inertia与聚类质量的关系

虽然Inertia是KMeans的优化目标，但它并非评估聚类质量的唯一标准。在实际应用中需要注意：

Inertia会随着K的增加而单调递减，因此不能直接用于确定最佳K值
不同规模的数据集之间Inertia不可直接比较
在高维空间中，Inertia可能会失去其直观意义

3.3 选择最佳K值的实用方法

常用的K值选择方法包括：

肘部法则（Elbow Method）：寻找Inertia下降的"拐点"
轮廓系数（Silhouette Score）：综合考虑簇内凝聚度和簇间分离度
间隔统计量（Gap Statistic）：比较实际数据与参考分布的聚类质量差异

以下是肘部法则的简单实现：

inertias = [] for k in range(1, 10): _, _, inertia = kmeans(X, k) inertias.append(inertia) plt.plot(range(1, 10), inertias, 'bx-') plt.xlabel('k') plt.ylabel('Inertia') plt.title('The Elbow Method') plt.show()

4. 算法优化与高级技巧

4.1 处理KMeans的常见问题

KMeans在实际应用中会遇到几个典型问题：

问题类型	表现特征	解决方案
空簇现象	某个簇没有分配到任何样本	重新初始化质心或移除空簇
局部最优	结果依赖初始质心位置	多次运行取最优结果
维数灾难	高维空间距离失效	数据降维或特征选择

4.2 加速计算的矩阵运算技巧

利用NumPy的广播机制可以大幅提升计算效率。以下是优化后的距离计算实现：

def optimized_distance(X, centers): # 利用 (a-b)^2 = a^2 - 2ab + b^2 展开 X_sq = np.sum(X**2, axis=1, keepdims=True) centers_sq = np.sum(centers**2, axis=1) cross_term = np.dot(X, centers.T) return np.sqrt(X_sq - 2*cross_term + centers_sq)

4.3 大规模数据的处理策略

当数据量过大时，可以考虑以下优化方案：

Mini-Batch KMeans：每次迭代使用数据子集
特征降维：PCA等方法来减少特征维度
分布式计算：将数据分片并行处理

5. 与sklearn实现的对比分析

5.1 sklearn中的KMeans关键参数

sklearn的KMeans实现提供了更多实用功能：

from sklearn.cluster import KMeans kmeans = KMeans( n_clusters=3, init='k-means++', # 更好的初始化策略 n_init=10, # 不同初始化的运行次数 max_iter=300, tol=1e-4, # 收敛阈值 algorithm='auto' # 自动选择算法变体 )

5.2 自定义实现与sklearn的性能对比

虽然我们的实现便于理解算法原理，但在生产环境中，sklearn的实现有以下优势：

更健壮的空簇处理
支持多种初始化策略
优化的Cython底层实现
完整的API接口和扩展功能

提示：理解算法原理后，在实际项目中推荐使用成熟的库实现，但在面试或教学场景中，手写实现能力往往更重要。

6. 实战案例：客户分群应用

让我们通过一个实际案例来巩固所学知识。假设我们有一组客户数据，包含两个特征：年消费额和购买频率。

# 生成模拟客户数据 np.random.seed(42) high_value = np.random.normal(loc=[10, 8], scale=1, size=(50, 2)) medium_value = np.random.normal(loc=[5, 4], scale=1, size=(100, 2)) low_value = np.random.normal(loc=[2, 2], scale=0.5, size=(150, 2)) X = np.vstack([high_value, medium_value, low_value]) # 应用KMeans聚类 labels, centroids, inertia = kmeans(X, k=3) # 可视化结果 plt.scatter(X[:, 0], X[:, 1], c=labels) plt.scatter(centroids[:, 0], centroids[:, 1], marker='X', s=200, c='red') plt.xlabel('Annual Spending') plt.ylabel('Purchase Frequency') plt.title('Customer Segmentation with KMeans')

通过这个案例，我们可以清晰地看到KMeans如何将客户自然地分成高、中、低价值三个群体，为后续的精准营销提供数据支持。

查看全文

http://www.jsqmd.com/news/926481/