当前位置：首页 > news >正文

别再只调库了！手把手教你用Matlab从零实现Kmeans聚类（附完整代码与可视化）

news 2026/7/24 14:40:29

从零构建Kmeans聚类：Matlab实战与数学原理深度解析

在数据科学领域，聚类算法如同一位无声的组织者，能够将看似杂乱无章的数据点按照内在规律自动分组。而Kmeans算法，则是这个领域最经典、最直观的代表作之一。很多学习者止步于调用Matlab内置的kmeans函数，却错过了理解算法精髓的机会。本文将带您从数学原理出发，亲手实现完整的Kmeans算法，并通过动态可视化揭示聚类中心移动的奥秘。

1. Kmeans算法的数学本质

Kmeans算法的核心思想可以用一个简单的优化问题来描述：给定n个数据点和预设的k个聚类中心，算法通过迭代最小化类内平方和(Within-Cluster Sum of Squares, WCSS)来寻找最优聚类。数学表达式为：

argmin_S ∑_{i=1}^k ∑_{x∈S_i} ||x - μ_i||^2

其中：

S_i表示第i个聚类
μ_i是S_i中所有点的均值向量
||x - μ_i||表示数据点x到中心μ_i的欧氏距离

关键数学概念解析：

欧氏距离计算：两点x=(x₁,x₂)和y=(y₁,y₂)在二维空间的距离公式为√[(x₁-y₁)² + (x₂-y₂)²]
均值更新规则：新聚类中心是该类所有数据点在每个维度上的算术平均值
收敛条件：当中心点移动距离小于阈值ε或达到最大迭代次数时停止

注意：Kmeans对初始中心点敏感，不同初始化可能导致不同结果，这是算法固有的"局部最优"特性

2. Matlab实现核心架构

我们将算法分解为五个关键模块，每个模块对应一个独立的函数：

function [centroids, idx] = myKmeans(X, k, max_iters) % 初始化聚类中心 centroids = initCentroids(X, k); for iter = 1:max_iters % 分配样本到最近中心 idx = findClosestCentroids(X, centroids); % 更新聚类中心位置 new_centroids = computeCentroids(X, idx, k); % 检查收敛条件 if norm(new_centroids - centroids) < 1e-6 break; end centroids = new_centroids; end end

模块功能对照表：

函数名	输入参数	输出结果	数学原理
`initCentroids`	数据矩阵X, 聚类数k	初始中心点	随机采样或k-means++
`findClosestCentroids`	X, 当前中心点	每个点的类别索引	最小欧氏距离准则
`computeCentroids`	X, 类别索引, k	更新后的中心点	均值计算
`plotProgresskMeans`	X, 中心点, 索引	动态可视化图形	散点图与中心轨迹绘制
`checkConvergence`	新旧中心点	是否收敛标志	中心点移动距离阈值判断

3. 关键代码实现细节

3.1 智能初始化中心点

传统随机初始化容易导致不良聚类，我们改进为：

function centroids = initCentroids(X, k) [m, n] = size(X); centroids = zeros(k, n); % 随机选择第一个中心点 randidx = randperm(m, 1); centroids(1,:) = X(randidx,:); % 使用k-means++策略选择后续中心点 for i = 2:k % 计算每个点到最近中心的距离平方 distances = pdist2(X, centroids(1:i-1,:)).^2; minDistances = min(distances, [], 2); % 按距离加权概率选择下一个中心 prob = minDistances / sum(minDistances); cumProb = cumsum(prob); r = rand(); nextIdx = find(cumProb >= r, 1); centroids(i,:) = X(nextIdx,:); end end

3.2 高效距离计算与类别分配

使用矩阵运算替代循环，大幅提升效率：

function idx = findClosestCentroids(X, centroids) k = size(centroids, 1); m = size(X, 1); idx = zeros(m, 1); % 计算所有点到所有中心的距离矩阵 distanceMatrix = zeros(m, k); for i = 1:k diff = X - centroids(i,:); distanceMatrix(:,i) = sum(diff.^2, 2); end % 找到每个点的最近中心索引 [~, idx] = min(distanceMatrix, [], 2); end

3.3 中心点更新与异常处理

function centroids = computeCentroids(X, idx, k) [n, d] = size(X); centroids = zeros(k, d); for i = 1:k % 找到属于当前类的所有点 members = X(idx == i, :); % 处理空类情况 if isempty(members) centroids(i,:) = X(randi(n),:); % 随机重新初始化 else centroids(i,:) = mean(members, 1); end end end

4. 动态可视化实现

创建动画效果展示聚类演化过程：

function plotProgresskMeans(X, centroids, idx, iter) % 设置颜色映射 colors = {'b', 'g', 'r', 'c', 'm', 'y', 'k'}; % 绘制数据点 figure(1); clf; hold on; for i = 1:size(centroids,1) % 绘制当前类的数据点 points = X(idx == i, :); plot(points(:,1), points(:,2), [colors{i} '.'], 'MarkerSize', 10); % 绘制聚类中心 plot(centroids(i,1), centroids(i,2), [colors{i} 'x'], ... 'LineWidth', 2, 'MarkerSize', 15); % 绘制中心移动路径 if iter > 1 plot([old_centroids(i,1), centroids(i,1)], ... [old_centroids(i,2), centroids(i,2)], ... colors{i}, 'LineWidth', 1, 'LineStyle', '--'); end end hold off; title(sprintf('迭代次数: %d', iter)); xlabel('特征1'); ylabel('特征2'); grid on; % 保存当前中心用于下次绘制路径 old_centroids = centroids; % 绘制类别数量变化条形图 figure(2); counts = histcounts(idx, 1:(size(centroids,1)+1)); bar(1:size(centroids,1), counts, 'FaceColor', 'flat'); for i = 1:size(centroids,1) text(i, counts(i), num2str(counts(i)), ... 'HorizontalAlignment', 'center', ... 'VerticalAlignment', 'bottom'); end title('各类别样本数量分布'); xlabel('类别'); ylabel('样本数'); ylim([0 max(counts)*1.1]); end

5. 算法优化与实用技巧

5.1 评估聚类质量的三种方法

肘部法则(Elbow Method)：通过不同k值的WCSS曲线寻找拐点

wcss = zeros(10,1); for k = 1:10 [~, ~, sumd] = kmeans(X,k); wcss(k) = sum(sumd); end plot(1:10, wcss, '-o');

轮廓系数(Silhouette Coefficient)：衡量样本与同类/异类的相似度
```
silhouette(X, idx);
```
Gap统计量：比较实际数据与参考分布的聚类质量差异

5.2 常见问题解决方案

问题1：空聚类出现

解决方案：采用k-means++初始化或重新分配中心点

问题2：对异常值敏感

解决方案：使用k-medoids算法或预先过滤异常点

问题3：确定最佳k值

解决方案：结合业务需求与统计方法综合判断

5.3 性能优化策略

向量化计算：用矩阵运算替代循环
并行计算：利用Matlab的parfor加速迭代
提前终止：设置合理的收敛阈值
降维预处理：对高维数据先进行PCA处理

6. 真实案例：客户分群应用

假设我们有一组客户消费数据，包含年消费额和购买频率两个维度：

% 生成模拟客户数据 rng(42); % 固定随机种子确保可重复性 high_value = [normrnd(8,1,50,1), normrnd(15,2,50,1)]; medium_value = [normrnd(4,0.8,70,1), normrnd(8,1.5,70,1)]; low_value = [normrnd(1,0.5,30,1), normrnd(3,1,30,1)]; customer_data = [high_value; medium_value; low_value]; % 执行Kmeans聚类 k = 3; [centroids, idx] = myKmeans(customer_data, k, 50); % 可视化最终结果 figure; gscatter(customer_data(:,1), customer_data(:,2), idx); hold on; plot(centroids(:,1), centroids(:,2), 'kx', 'MarkerSize', 15, 'LineWidth', 3); title('客户价值分群结果'); xlabel('年消费额（万元）'); ylabel('月均购买次数'); legend('高价值客户','中价值客户','低价值客户','聚类中心');

业务解读建议：