当前位置：首页 > news >正文

10.吴恩达机器学习——无监督学习01聚类与异常检测算法

news 2026/7/13 3:00:40

从本节开始，正式进入无监督学习课程部分

一、什么是聚类

聚类（Clustering）是机器学习领域的一种无监督学习方法，其核心目标是将数据集中的样本划分为若干个子集（称为簇，Cluster），使得同一簇内的样本之间相似度较高，而不同簇之间的样本相似度较低。聚类不需要预先标注的标签数据，而是通过样本自身的特征分布自动发现数据内在的结构模式。

二、K均值算法

K均值算法会做两件事：将点分配给聚类中心，移动聚类

(1)算法步骤

随机猜测你可能要求算法找到的聚类的中心，示例中首先随机找两个点作为聚类中心

算法会遍历的计算每个数据点与聚类中心的距离，离谁更近，这个数据点就归为这一类
查看所有经过第一次分配后的相同类点，并取该类点的平均值作为该类的新中心，更新聚类中心（这里是对红色和蓝色分别操作）
接着重复之前的步骤，直到聚类中心不再有太大变化

(2)算法实现

注意，如果存在一个数据点没有被聚类，通常是删除这个点

(3)算法优化

算法代价函数定义

初始化聚类中心

之前提到的初始化是随机点，而聚类算法中常用的是用训练数据集中的K个点作为初始化的聚类中心，而这K个点的选择要使得当前的代价函数最低，便是最优，图中红框部分既是最优

采用多次随机初始化，暴力找到最优

(4)选择聚类数量

1. 肘部法则（Elbow Method）

该方法计算不同K值下的簇内平方和（Within-Cluster Sum of Squares, WCSS），即每个样本到其所属聚类中心的距离平方和。随K增加，WCSS会迅速下降后趋于平缓。绘制WCSS随K变化的曲线，寻找曲线拐点（类似于“肘部”）作为最优K，该点之后WCSS下降幅度显著减小，表示进一步增加K的收益递减。

以下为肘部法则的典型曲线示例：

2. 其他考虑因素

领域知识：在实际应用中，常结合业务理解预估合理K值（如客户分群中的预期细分数量）。
多种方法结合：单一方法可能产生歧义，推荐同时使用肘部法、轮廓系数法和间隙统计法进行交叉验证。
局限性：这些方法均为启发式，当数据簇形状不规则、重叠严重或噪声较多时，可能无法给出清晰最优K，此时可考虑其他聚类算法（如DBSCAN，无需指定K）。

在实践中，可通过编程库（如Python的scikit-learn）实现上述评估，遍历合理K范围（通常从2到√n，n为样本数）并比较指标。

三、异常检测算法

(1)基本概念

实现异常检测算法最常用的是一种叫密度估计的技术，当得到m个样本时，你需要做的是建立一个x的概率模型，也就是找出特征最有可能出现的值，和最不可能出现的值
我们认为密度越大的区域，特征取值概率越高，就越正常，越稀疏就表示可能存在问题，当我们的x_test的概率p(x_test)小于某个阈值时候，我们就需要将其标记为异常，从而进行检测