当前位置: 首页 > news >正文

模型和算法篇(二)无监督学习

在无监督学习中,聚类和降维是两种最常见的算法,不过它们应用场景很不一样。聚类我们说过了,主要可以用来做分组;而降维,则是通过数学变换,将原始高维属性空间转变为一个低维“子空间”,它本质上是通过最主要的几个特征维度实现对数据的描述。

聚类算法可以让机器把数据集中的样本按照特征的性质分组,不过它只是帮我们把数据特征彼此邻近的用户聚成一组(这里的组称为聚类的簇)。而这里说的“特征彼此邻近”,指的这些用户的数据特征在坐标系中有更短的向量空间距离。也就是说,聚类算法是把空间位置相近的特征数据归为同一组。

聚类算法本身并不知道哪一组用户是高价值,哪一组用户是低价值。分完组之后,我们还要根据机器聚类的结果,人为地给这些用户组贴标签,看看哪一组价值高,哪一组价值低。我这里把这种人为贴标签的过程称为“聚类后概念化”。

一、聚类算法——K-Means(K- 均值)算法

这个算法不仅简洁,而且效率也高,是我们最常用的聚类算法。像文档归类、欺诈行为检测、用户分组等等这些场景,我们往往都能用到。

在 K-Means 算法中,“K”是一个关键。K 代表聚类的簇(也就是组)的个数。比如说,我们想把 M 值作为特征,将用户分成 3 个簇(即高、中、低三个用户组),那这里的 K 值就是 3,并且需要我们人工指定。

指定 K 的数值后,K-Means 算法会在数据中随机挑选出 K 个数据点,作为簇的质心(centroid),这些质心就是未来每一个簇的中心点,算法会根据其它数据点和它的距离来进行聚类。

挑选出质心后,K-Means 算法会遍历每一个数据点,计算它们与每一个质心的距离(比如欧式距离)。数据点离哪个质心近,就跟哪个质心属于一类。

遍历结束后,每一个质心周围就都聚集了很多数据点,这时候啊,算法会在数据簇中选择更靠近中心的质心,如果原来随机选择的质心不合适,就会让它下岗。

在整个聚类过程中,为了选择出更好的质心,“挑选质心”和“遍历数据点与质心的距离”会不断重复,直到质心的移动变化很小了,或者说固定不变了,那 K-Means 算法就可以停止了。

我们前面说 K 值需要人工指定,那怎么在算法的辅助下确定 K 值呢?

手肘法选取 K 值

其实,在事先并不是很确定分成多少组比较合适的情况下,“手肘法”(elbow method)可以帮我们决定,在某一批数据点中,数据分为多少组比较合适。

手肘法是通过聚类算法的损失值曲线来直观确定簇的数量。损失值曲线,就是以图像的方法绘出,取每一个 K 值时,各个数据点距离质心的平均距离。如下图所示,当 K 取值很小的时候,整体损失很大,也就是说各个数据点距离质心的距离特别大。而随着 K 的增大,损失函数的值会在逐渐收敛之前出现一个拐点。此时的 K 值就是一个比较好的值。

你看图中,损失随着簇的个数而收敛的曲线大概像个手臂,最佳 K 值的点像是一个手肘,这就是为什么我们会叫它“手肘法”的原因。

http://www.jsqmd.com/news/613045/

相关文章:

  • 百度网盘Mac版终极提速指南:3分钟解锁SVIP高速下载体验
  • 鸿蒙 App、PC、游戏,本质是同一套系统吗?
  • 4步精通Cellpose-SAM:从零开始掌握细胞分割的完整指南
  • 微软 Agent Governance Toolkit 开源实战:AI Agent 安全治理全指南,一站式解决 OWASP 十大 AI 风险
  • 3分钟极速安装AdGuard浏览器扩展:终极广告拦截与隐私保护完整指南
  • 告别Windows系统臃肿困扰:Win11Debloat带来的一站式优化解决方案
  • 选剑桥通用五级备考教学机构,北京宏恩口碑如何 - 工业推荐榜
  • 2026 企业办公家具采购指南:如何成为高端定制首选?
  • 结合行业现状,CPPM未来发展潜力与备考价值详解 - 众智商学院官方
  • SpringCloud进阶--Seata与分布式事务氛
  • 2026年葫芦岛搬家公司推荐榜:专业居民搬家、单位搬迁与设备搬运服务商全解析 - 海棠依旧大
  • 最新独立付费进群系统源码 自带了二个模板 支持分站分销+全界面自定义+易支付接口
  • PHP网页快照工具:Browsershot零代码生成PDF/图片全攻略
  • Deep3D:深度学习驱动的实时2D转3D视频转换技术探索
  • MarginNote3/4同步踩坑实录:从蓝牙直连到NAS同步,我的高效文献管理方案进化史
  • 时钟抖动Jitter如何影响你的高速PCB设计?实测案例+解决方案
  • LingBot-Depth实战教程:Prometheus+Grafana深度服务性能监控体系搭建
  • 支付宝立减金不浪费!可可收教你高效回收,告别过期遗憾 - 可可收
  • 跨平台BongoCat桌面宠物开发实战:从零构建互动猫咪应用
  • 2026年酒水即时零售运营服务TOP5推荐:成都单红旭公司/成都单红旭商贸/成都单红旭商贸有限公司/单红旭商贸有限公司/选择指南 - 优质品牌商家
  • 海南鑫典雅广告有限公司:海口市美兰区广告招牌定制 显示屏安装公司 - LYL仔仔
  • 3大阶段构建高效开源Switch模拟器环境:从问题诊断到性能优化
  • 专业做佛山市办公家具工厂的服务商
  • 【考研 408】操作系统・内存管理 超全精讲(考点 + 真题 + 背诵版)
  • 电脑锁定就重启
  • AudioCLIP三大突破:如何用开源多模态AI实现文本、图像、音频的跨模态检索
  • 3步掌握Fan Control:从安装到优化的风扇智能管理指南
  • 项目篇(三)防止过拟合
  • Win11Debloat:让Windows系统性能提升60%的终极优化方案
  • ROS2新手必看:5分钟搞定Python功能包创建与消息订阅发布