当前位置: 首页 > news >正文

Scikit-learn KMeans聚类报错怎么办?教你一招避坑

💓 博客主页:瑕疵的CSDN主页
📝 Gitee主页:瑕疵的gitee主页
⏩ 文章专栏:《热点资讯》

被KMeans的NaN坑到凌晨三点,终于摸清了根儿

目录

昨晚改代码改到眼冒金星,就为这个KMeans报错:

ValueError: Input contains NaN, infinity or a value too large for dtype('float64')

直接卡在kmeans.fit(X)这行,试了三遍数据集,每次都是这鬼报错。气得我摔了咖啡杯——数据明明是干净的啊?!

根源就一个字:NaN
Scikit-learn的KMeans对缺失值零容忍。我本地跑的CSV有几行空值,但肉眼没看出来(毕竟用Pandas看表时默认隐藏了NaN)。更坑的是,报错信息里连哪列有NaN都不说,纯纯的“黑箱报错”。

错误示范(我刚入行时写的)

fromsklearn.clusterimportKMeans# 直接用原始数据(含NaN)X=pd.read_csv("data.csv")# 有3列含NaNkmeans=KMeans(n_clusters=4)kmeans.fit(X)# 一跑就崩!

注释:天真以为数据是干净的,结果KMeans在底层检查时发现NaN,直接抛异常。别问,问就是血泪史

正确姿势(现在秒级解决)

fromsklearn.imputeimportSimpleImputerfromsklearn.clusterimportKMeans# 先处理缺失值(关键步骤!)imputer=SimpleImputer(strategy='mean')# 用均值填充X_clean=imputer.fit_transform(X)# 返回numpy数组# 再聚类kmeans=KMeans(n_clusters=4,random_state=42)kmeans.fit(X_clean)

注释:

  1. SimpleImputer是Scikit-learn自带的填充工具,strategy='mean'自动算列均值补缺
  2. fit_transform直接返回处理后的数据(避免Pandas和numpy混用坑)
  3. random_state防随机性,聚类结果可复现

避坑总结(血的教训)

  1. 数据进KMeans前必做检查
    print(X.isnull().sum().sum())# 直接看总缺失数,别靠眼睛
    print(X.dtypes)# 确认列类型,避免object类型被误当数值
  1. 别信“数据是干净的”
    我上次用df.dropna()删了整行,结果聚类结果歪了——缺失值不是垃圾,而是信息!用均值/中位数填充比删行更合理。

  2. 报错时盯住具体行
    如果报错在fit,大概率是输入数据问题;在transform,可能是测试集有新缺失。别乱改算法,先查数据


(图:左边原始数据有空值,右边填充后数值完整,KMeans才能跑)

最后说句大实话:KMeans报错90%是数据问题,不是算法问题。我踩过这坑三次,现在一看到ValueError就先跑isnull().sum()。别等凌晨三点才改,数据干净了,聚类才香

(字数:688)

http://www.jsqmd.com/news/1048516/

相关文章:

  • AMD 780M核显Windows原生运行ComfyUI实战指南
  • 算法优化思维:从暴力解法到最优解的分析过程
  • 2026海口本地正规瓷砖空鼓维修服务商盘点|无损免拆砖修复,全域上门售后有保障 - 宅安选房屋修缮
  • 2026年6月最新天梭中国官方售后客户服务地址及联系电话 - 天梭服务中心
  • 北京播音主持艺考培训机构盘点 聚焦班型与师资配置 - 互联网科技品牌测评
  • 2026年6月最新劳力士中国官方售后维修服务网点地址与客服电话 - 劳力士服务中心
  • 2026年森屿文华深度解析:朝阳东坝板块置业场景配套兑现与价值疑虑 - 品牌推荐
  • 2026年6月最新欧米茄中国官方售后客服地址电话及服务网点汇总 - 欧米茄服务中心
  • 1997-2024年中国水资源公报
  • 沈阳刑事律师服务盘点:5家执业主体核心能力对比 - 互联网科技品牌测评
  • 2026年6月最新劳力士中国官方售后客户服务电话地址及网点分布 - 劳力士服务中心
  • 鸿蒙全球局势推演:火星殖民时代英语词汇爆炸推演:千万级术语通胀、学习成本危机与鸿蒙大一统体系破局研究(四)
  • 2026年森屿文华户型深度解析:朝阳东坝板块改善型购房者面临的选择困境与品质落差 - 品牌推荐
  • 2026沈阳黄金回收商家实力排名,合扬多项数据领跑行业 - 奢侈品交易观察员
  • [WenJi项目实战]拒绝死锁与误删:从手写 Redis 锁到 Redisson 看门狗的演进之路
  • 积石山宴席必吃菜品推荐|本地人私藏清真家常菜,办宴不踩雷清单 - 速递信息
  • 潍坊营业性演出许可证代办公司推荐那家专业靠谱 - 速递信息
  • 帆软报表前台任意文件上传漏洞深度剖析与武器化实践
  • 2026年6月最新百达翡丽中国官方售后网点服务电话及客户热线地址 - 百达翡丽服务中心
  • 2026北京黄金回收行情解读|顶尖翘楚执牛耳,全城黄金回收商家实力段位测评 - 奢侈品交易观察员
  • 2026北京黄金回收行业翘楚测评|龙头领衔执牛耳,正规黄金回收标杆甄选指南 - 奢侈品交易观察员
  • 2026青岛门窗选购权威推荐:五大本地实力派源头工厂年度榜单与深度实测 - GrowthUME
  • VEO 3多模态私有化部署实战:从模型验证到推理流水线
  • 2026年6月最新天梭中国官方售后网点客户服务电话及地址 - 天梭服务中心
  • 2026惠州黄金变现避坑全指南:6家正规机构实测推荐,惠奢汇领衔不踩坑 - 生活测评小能手
  • 2026河源黄金奢侈品回收靠谱门店排名实测:避坑攻略看这篇 - 生活测评小能手
  • 2026黄金回收避坑指南:称重、鉴定、报价全流程干货 - 奢侈品交易观察员
  • 2026北京名表回收选购指南|领航全域+行业翘楚,全城奢表回收商家星级权威测评 - 奢侈品交易观察员
  • SAP UI5项目实战:用Gherkin与BDD实现业务语言驱动自动化测试
  • 沈阳刑事律师机构排行:基于专业维度的客观参考 - 互联网科技品牌测评