当前位置: 首页 > news >正文

Kmeans算法、最佳聚类数的确定及散点图

Kmeans算法、最佳聚类数的确定及散点图 ①使用手肘法、轮廓系数法及CH值三种指标来衡量最佳聚类数目 ②使用K-means进行聚类,得出可视化聚类的结果 ③同时得出聚类结果展示(Excel文件) Python代码,备注清晰,替换成自己的数据即可。

最近在做数据聚类分析的项目,用到了Kmeans算法,还研究了如何确定最佳聚类数,最后生成了可视化的散点图,感觉挺有意思的,来和大家分享一下😃

一、最佳聚类数的确定方法

手肘法

手肘法是一种很直观的确定最佳聚类数的方法。简单来说,就是计算不同聚类数下的聚类误差平方和(SSE),然后绘制SSE随聚类数变化的曲线。当曲线出现明显的拐点时,这个拐点对应的聚类数就是比较合适的最佳聚类数。

用Python实现手肘法的代码如下:

import numpy as np import pandas as pd import matplotlib.pyplot as plt from sklearn.cluster import KMeans # 假设我们有一个数据集data data = pd.read_csv('your_data.csv') sse = [] for k in range(1, 11): kmeans = KMeans(n_clusters=k, init='k-means++', max_iter=300, n_init=10, random_state=0) kmeans.fit(data) sse.append(kmeans.inertia_) plt.plot(range(1, 11), sse) plt.title('Elbow Method') plt.xlabel('Number of clusters') plt.ylabel('SSE') plt.show()

代码分析:

  • 首先导入需要的库,包括numpy、pandas、matplotlib.pyplot和sklearn.cluster中的KMeans。
  • 读取数据集。这里假设数据集是一个CSV文件,你需要把文件名替换成自己的。
  • 然后通过循环计算不同聚类数(从1到10)下的SSE。每次创建一个KMeans对象,设置好参数后进行拟合,将每次的inertia_(即SSE)添加到sse列表中。
  • 最后绘制SSE随聚类数变化的曲线,通过观察曲线的拐点来初步确定最佳聚类数。

轮廓系数法

轮廓系数法综合考虑了样本点到同簇其他样本的平均距离(a)和到最近簇中样本的平均距离(b)。轮廓系数越接近1,表示聚类效果越好。

from sklearn.metrics import silhouette_score silhouette_scores = [] for k in range(2, 11): kmeans = KMeans(n_clusters=k, init='k-means++', max_iter=300, n_init=10, random_state=0) kmeans.fit(data) labels = kmeans.labels_ silhouette_scores.append(silhouette_score(data, labels)) plt.plot(range(2, 11), silhouette_scores) plt.title('Silhouette Method') plt.xlabel('Number of clusters') plt.ylabel('Silhouette Score') plt.show()

代码分析:

  • 同样先导入必要的库,这里多了sklearn.metrics中的silhouette_score。
  • 循环计算不同聚类数(从2到10)下的轮廓系数。每次拟合模型后获取预测的标签,然后计算轮廓系数并添加到silhouette_scores列表中。
  • 绘制轮廓系数随聚类数变化的曲线,根据曲线峰值来确定最佳聚类数。

CH值

CH值是Calinski-Harabasz Index的缩写,它衡量了聚类的紧密程度和分离程度。CH值越大,聚类效果越好。

from sklearn.metrics import calinski_harabasz_score ch_scores = [] for k in range(2, 11): kmeans = KMeans(n_clusters=k, init='k-means++', max_iter=300, n_init=10, random_state=0) kmeans.fit(data) labels = kmeans.labels_ ch_scores.append(calinski_harabasz_score(data, labels)) plt.plot(range(2, 11), ch_scores) plt.title('Calinski-Harabasz Method') plt.xlabel('Number of clusters') plt.ylabel('CH Score') plt.show()

代码分析:

  • 导入sklearn.metrics中的calinskiharabaszscore。
  • 循环计算不同聚类数(从2到10)下的CH值。过程和前面类似,拟合模型获取标签后计算CH值并添加到ch_scores列表中。
  • 绘制CH值随聚类数变化的曲线,从曲线中找到最佳聚类数。

二、K-means聚类及可视化结果

根据上述方法确定最佳聚类数后,就可以使用K-means进行聚类了。

optimal_k = 3 # 假设最佳聚类数是3,你需要根据前面的分析结果替换 kmeans = KMeans(n_clusters=optimal_k, init='k-means++', max_iter=300, n_init=10, random_state=0) kmeans.fit(data) labels = kmeans.labels_ data['Cluster'] = labels # 保存聚类结果到Excel文件 data.to_excel('cluster_results.xlsx', index=False) # 绘制散点图 plt.scatter(data.iloc[:, 0], data.iloc[:, 1], c=data['Cluster']) plt.title('Kmeans Clustering Results') plt.xlabel('Feature 1') plt.ylabel('Feature 2') plt.show()

代码分析:

  • 首先设置最佳聚类数optimal_k,这里假设是3,你要根据前面的分析结果进行替换。
  • 创建KMeans对象并进行拟合,获取聚类标签。
  • 将聚类标签添加到原始数据集中,并保存为Excel文件。
  • 最后绘制散点图,用不同颜色表示不同的聚类,直观展示聚类结果。

通过上述步骤,我们就完成了使用Kmeans算法进行聚类分析,并确定了最佳聚类数,同时生成了可视化的散点图和聚类结果展示文件😎。希望这篇分享对大家在数据聚类方面有所帮助!

以上就是本次关于Kmeans算法相关内容的全部啦,欢迎大家一起交流讨论🧐。

Kmeans算法、最佳聚类数的确定及散点图 ①使用手肘法、轮廓系数法及CH值三种指标来衡量最佳聚类数目 ②使用K-means进行聚类,得出可视化聚类的结果 ③同时得出聚类结果展示(Excel文件) Python代码,备注清晰,替换成自己的数据即可。

你可以根据自己的实际数据和需求,对代码进行调整和优化。如果在运行过程中遇到问题,也可以参考代码分析部分来排查原因哦😃。

这样一篇关于Kmeans算法及相关内容的博文就完成啦,是不是很简单易懂😜?希望能给你一些启发,下次再遇到类似的数据分析任务就更得心应手啦💪!

你觉得这篇博文怎么样呀🧐?有什么问题或者建议都可以随时告诉我哦😃。

#Kmeans算法 #最佳聚类数 #散点图 #数据分析

http://www.jsqmd.com/news/492850/

相关文章:

  • 9元搞定!阿里云OSS+HTML搭建个人静态网站全流程(含域名备案避坑指南)
  • 咱们今天来盘一盘三相级联H桥的载波移相仿真。直接上硬菜,先看看A相三个H桥怎么玩载波错位。每个H桥的载波相位差120度,这招能把输出波形的纹波压得死死的
  • 信号与系统分析2026(春季)作业参考答案 - 第八次作业
  • 高压下的自我怀疑:当“我的实力配不上经历”成为内心独白,我们该如何理性应对与战略抉择?
  • GO学习日志07
  • 永磁同步电机FOC矢量控制仿真探索:从无感到闭环启动
  • 《QGIS快速入门与应用基础》221:项目面板:布局元素管理
  • deer-flow2本地启动(无make无nginx启动)
  • 滑模控制:解锁复杂系统控制的密码
  • SWD/JTAG Communication Failure的解决方法
  • MATLAB 分步傅里叶法仿真光纤激光器锁模脉冲产生:攻克脉冲漂移难题
  • 地下排水管道缺陷数据集 水下管道缺陷识别 智能识别之管道缺陷识别 管道油污碎屑 结垢沉积物识别 根系侵入数据集 表面损伤、破裂的管道、破裂图像数据集-目标检测图像数据集第10112期
  • YOLO系列算法改进 | 主干改进篇 | 替换MobileViGv2可缩放图卷积网络 | 助力模型复杂场景下精细区分目标和理解空间关系 | CVPR 2024
  • Prescan与Simulink联合仿真AEB模型:实现自动避撞停车
  • 泊车路径规划:几何方法实现的魅力
  • Deeplab - v3与ISIC皮肤病分割数据集实战
  • COMSOL:木材吸水(毛细效应)模型介绍
  • Android 硬件测试全流程方法论 —— 从性能、功耗到稳定性(测试工程师必看)
  • 多语言编程:Yi-Coder-1.5B支持52种语言实战演示
  • 探索一维光子晶体超窄带滤波器:从光学仿真到Matlab实现
  • 【RAG】【Data-Processor】【node_parsers04】SlideNodeParser文档解析示例
  • 挑选AI外包团队的“五看一评”标准,帮你避开90%的坑
  • 【RAG】【Data-Processor】【node_parsers05】TopicNodeParser主题解析示例
  • USB 5V电表设计:基于N32G430与INA199的嵌入式电源监测方案
  • AI投资回报率的“三维度”评估法:不只算钱,更要算清这些隐性价值
  • 融合正余弦和柯西变异的麻雀搜索算法优化CNN - BiLSTM
  • 机器视觉学习总结
  • ENSP模拟验证VLAN不同端口类型对数据帧的收发情况
  • SiameseAOE实战:快速分析餐厅/酒店/商品评论,小白也能搞定
  • 功率分流混联式混合动力车辆热管理建模与性能计算分析,对标丰田混合动力EVT构型,利用Simul...