当前位置：首页 > news >正文

AI 术语通俗词典：调整兰德指数（ARI）

news 2026/6/22 11:18:58

调整兰德指数是机器学习、聚类评估、无监督学习和人工智能中非常常见的一个术语。它用来描述：一个聚类结果与真实标签之间的一致程度，并且对随机一致性进行了修正。换句话说，调整兰德指数是在回答：模型分出来的簇，和真实类别到底有多接近，而且这种接近是不是超过了随机碰巧一致的水平。

如果说轮廓系数主要回答的是“没有真实标签时，聚类结构本身是否清晰”，那么调整兰德指数回答的是“有真实标签时，聚类结果和真实类别是否一致”。因此，调整兰德指数常用于聚类模型评估、K 均值聚类、层次聚类、DBSCAN、谱聚类、聚类算法比较和无监督学习实验分析，在人工智能中具有重要基础意义。

一、基本概念：什么是调整兰德指数

调整兰德指数（Adjusted Rand Index，ARI）是一种用于评价聚类结果的指标。

它比较的是两种分组方式之间的一致程度：

• 一种是聚类算法得到的簇标签

• 另一种是真实类别标签，或其他参考分组结果

例如，在鸢尾花数据集中，每个样本原本有真实类别。

如果我们不用真实类别训练模型，而是用 KMeans 把样本自动分成几类，那么就可以用调整兰德指数比较聚类标签与真实标签：

• 如果聚类结果和真实类别高度一致，ARI 较高；

• 如果聚类结果和真实类别关系不大，ARI 接近 0；

• 如果聚类结果比随机分组还差，ARI 可能为负。

调整兰德指数通常记为：

它的常见取值理解是：

• ARI = 1，表示两个分组完全一致

• ARI ≈ 0，表示一致程度接近随机水平

• ARI < 0，表示结果比随机一致性还差

从通俗角度看，ARI 可以理解为：

模型自动分出来的组，和标准答案中的类别有多一致。

不过需要注意：ARI 不要求聚类标签的编号和真实标签编号完全相同。

例如，真实标签中“0 类”对应聚类标签中的“2 类”，只要样本之间的分组关系一致，ARI 仍然可以很高。

这正是聚类评估中非常重要的一点：

聚类关心的是哪些样本被分到一起，而不是类别编号是否相同。

二、为什么需要调整兰德指数

调整兰德指数之所以重要，是因为聚类结果的标签编号本身没有固定含义。

在分类任务中，标签通常有明确语义。

例如：

• 0 = 猫

• 1 = 狗

• 2 = 兔子

如果模型把猫预测成狗，就是明显错误。

但在聚类任务中，算法输出的标签只是簇编号。例如：0, 1, 2。这些编号并没有天然语义。

KMeans 第一次运行时，某一类可能被标成 0；第二次运行时，同一类可能被标成 2。只看标签编号是否相等，会误判聚类结果。

例如，真实标签是：[0, 0, 1, 1]。

聚类标签是：[2, 2, 3, 3]。

从编号看完全不同，但从分组关系看是完全一致的：

• 前两个样本在同一组

• 后两个样本在同一组

• 前两个和后两个不在同一组

因此，聚类评估不能简单比较标签编号，而应该比较：样本对之间的分组关系是否一致。

调整兰德指数正是基于这种思想。它关注的是任意两个样本：

• 在真实标签中是否属于同一类

• 在聚类结果中是否属于同一簇

如果大量样本对的关系一致，说明聚类结果与真实类别一致程度较高。

从通俗角度看，ARI 不是在问：标签编号有没有对上。而是在问：

哪些样本该在一起，哪些样本不该在一起，模型分得是否一致。

三、兰德指数：ARI 的基础

理解调整兰德指数，先要理解兰德指数（Rand Index，RI）。

兰德指数也是比较两个分组结果一致性的指标。它基于样本对进行计算。

对于任意两个样本，可以出现四种情况：

• 在真实标签中同类，在聚类结果中也同簇

• 在真实标签中不同类，在聚类结果中也不同簇

• 在真实标签中同类，但在聚类结果中不同簇

• 在真实标签中不同类，但在聚类结果中同簇

其中，前两种情况表示一致，后两种情况表示不一致。

设：

• a 表示在真实标签中同类、在聚类结果中也同簇的样本对数量

• b 表示在真实标签中不同类、在聚类结果中也不同簇的样本对数量

• c 表示在真实标签中同类、但在聚类结果中不同簇的样本对数量

• d 表示在真实标签中不同类、但在聚类结果中同簇的样本对数量

兰德指数可以写为：

其中：

• a + b 表示分组关系一致的样本对数量

• a + b + c + d 表示所有样本对数量

从通俗角度看：

兰德指数就是看所有样本两两配对后，有多少对的关系被聚类结果判断对了。

如果 RI 越接近 1，说明两个分组越一致。

但兰德指数有一个问题：即使随机分组，也可能得到一定程度的一致。

尤其是样本数量较多、类别分布特殊时，随机分组也可能让很多样本对在“不同组”这一点上看起来一致。

因此，单纯 RI 可能偏乐观。这就需要调整兰德指数。

四、为什么要“调整”：修正随机一致性

调整兰德指数中的“调整”，指的是：

对随机情况下可能出现的一致性进行修正。

如果两个分组结果完全随机，它们仍然可能在一些样本对上碰巧一致。

例如，两个样本在真实标签中不同类，在随机聚类结果中也不同簇，这种一致可能只是偶然。

如果不做修正，兰德指数可能会把这种随机一致性也算作模型能力。

调整兰德指数希望做到：

• 完全一致时，ARI = 1

• 随机水平时，ARI ≈ 0

• 差于随机时，ARI < 0

一种常见表达方式是：

其中：

• RI 表示兰德指数

• E[RI] 表示随机情况下兰德指数的期望值

• ARI 表示调整后的兰德指数

这个公式的核心意思是：

先扣除随机情况下本来就可能得到的一致性，再看剩下的一致性有多少。

从通俗角度看，ARI 像是在说：

不能只看模型答对了多少，还要扣掉“蒙也可能蒙对”的部分。

这使得 ARI 比普通兰德指数更适合比较不同聚类结果。

五、如何直观理解调整兰德指数

调整兰德指数最核心的直觉是：

判断聚类结果是否真的把该在一起的样本放在一起，把不该在一起的样本分开。

假设有 6 个样本，真实类别为：A A A B B B。

一个好的聚类结果可能是：1 1 1 2 2 2。

虽然标签名不同，但分组关系完全一致：

• 三个 A 被放在同一簇

• 三个 B 被放在同一簇

• A 和 B 没有混在一起

此时 ARI = 1。

如果聚类结果是 1 1 2 2 3 3：

那么真实的 A 被拆开了，真实的 B 也被拆开了，部分关系不一致，ARI 会降低。

如果聚类结果是随机的：1 2 1 3 2 3：

那么聚类标签与真实类别之间基本没有稳定对应关系，ARI 可能接近 0。

从通俗角度看，ARI 像是在检查：模型有没有把真正相似的一群样本放在一起。

而且它会进一步问：这种一致性是不是超过了随机分组也可能达到的水平。

因此，ARI 比单纯看“标签是否相等”更适合聚类评估。

六、调整兰德指数的取值含义

调整兰德指数通常可以这样理解。

1、ARI = 1：完全一致

当 ARI = 1 时，说明两个分组结果完全一致。

这里的“完全一致”不是指标签编号完全一样，而是指样本之间的分组关系完全一样。

例如：

• 真实标签：0 0 1 1

• 聚类标签：2 2 3 3

虽然编号不同，但分组结构一致，因此 ARI 可以达到 1。

2、ARI 接近 0：接近随机水平

当 ARI 接近 0 时，说明聚类结果与真实标签的一致程度大约相当于随机分组。

这通常意味着：

• 聚类结构和真实类别关系不明显

• 模型没有很好地恢复真实分组

• 特征空间中的自然结构可能与真实标签不一致

需要注意：

ARI 接近 0 不一定说明聚类算法本身“错误”。

有时真实标签和数据中的自然聚类结构并不完全一致。

例如，真实标签按物种划分，但数据特征可能更多反映大小、颜色或其他属性，聚类结果自然可能不同。

3、ARI 小于 0：差于随机水平

当 ARI < 0 时，说明聚类结果比随机分组还差。

这种情况通常表示：

• 聚类结果与真实类别明显不一致

• 聚类数量设置可能不合适

• 特征处理或距离度量可能存在问题

• 聚类算法不适合当前数据结构

不过，ARI 为负并不一定常见，但它提醒我们：聚类结果可能非常不理想。

4、ARI 越高是否一定越好

在有真实标签并且希望聚类恢复这些标签时，ARI 越高通常越好。

但在探索性聚类中，真实标签未必代表数据唯一合理的分组方式。

因此，ARI 高说明聚类结果接近参考标签；ARI 低说明它不接近参考标签，但不一定说明聚类没有任何意义。

从通俗角度看：

ARI 衡量的是“像不像参考答案”，而不是聚类结果在所有意义上是否有价值。

七、调整兰德指数与其他聚类指标的区别

调整兰德指数常和其他聚类评价指标一起使用。

1、ARI 与轮廓系数

轮廓系数不需要真实标签。

它主要看：

• 簇内是否紧密

• 簇间是否分离

因此，轮廓系数属于内部评价指标。

ARI 需要真实标签或参考分组。

它主要看：聚类结果和参考标签是否一致。

因此，ARI 属于外部评价指标。

可以简单理解为：

• 轮廓系数：没有标准答案时，看聚类结构清不清楚

• ARI：有标准答案时，看聚类结果和标准答案像不像

2、ARI 与准确率

聚类任务不能直接用普通准确率比较标签编号。

原因是聚类标签编号没有固定语义。

例如，真实标签中的 0 类可能对应聚类标签中的 2 类。

ARI 不关心编号是否一致，而关心样本对关系是否一致。

因此，它比准确率更适合评价聚类标签。

3、ARI 与 NMI

NMI 是标准化互信息（Normalized Mutual Information）。

它也用于比较聚类结果和真实标签。

NMI 关注的是两个分组之间共享了多少信息；

ARI 关注的是样本对关系的一致性，并对随机一致性做修正。

从通俗角度看：

• ARI 更像是在比较“哪些样本被放在一起是否一致”

• NMI 更像是在比较“两个分组结果共享了多少信息”

实际分析中，可以同时查看 ARI、NMI、轮廓系数等指标，避免只依赖单一分数。

八、调整兰德指数的优势、局限与使用注意事项

1、调整兰德指数的主要优势

ARI 的主要优势是适合评价聚类结果与真实标签的一致性。

它有几个特点：

• 不受标签编号置换影响

• 对随机一致性进行了修正

• 完全一致时取值为 1

• 随机水平通常接近 0

• 可用于比较不同聚类算法的结果

从通俗角度看，ARI 的优势在于：

它不是简单看标签数字是否相等，而是看分组关系是否真正一致。

这非常适合聚类评估。

2、调整兰德指数的主要局限

ARI 也有局限。

首先，它需要真实标签或参考分组。

如果完全没有真实标签，就无法使用 ARI。

其次，它评价的是与参考标签的一致性，而不是聚类结构本身是否自然。

如果真实标签和数据中的自然结构不同，ARI 可能较低，但聚类结果未必毫无意义。

再次，ARI 对聚类数量变化较敏感。

如果聚类数量与真实类别数量差别很大，ARI 往往会受到影响。

此外，ARI 是整体指标。

它给出一个总体分数，但不能直接告诉我们哪些类别最容易混淆。

如果需要进一步分析错误结构，可以结合混淆矩阵或聚类标签与真实标签的交叉表。

3、使用 ARI 时需要注意的问题

使用 ARI 时，需要注意以下几点：

• ARI 适合有真实标签的聚类评估

• 聚类标签编号不同不影响 ARI

• ARI 接近 0 表示接近随机一致性

• ARI 高表示接近参考标签，但不一定表示业务解释一定最好

• 如果没有真实标签，应考虑轮廓系数、Calinski-Harabasz 指数、Davies-Bouldin 指数等内部指标

• 最好结合可视化、簇规模和业务解释一起分析

从实践角度看，ARI 更适合回答：聚类结果有没有恢复已知类别结构？

而不是单独回答：这个聚类结果在业务上是否最有意义？

九、Python 示例

下面给出三个简单示例，用来帮助理解调整兰德指数的计算和使用。

示例 1：直接计算调整兰德指数

from sklearn.metrics import adjusted_rand_score # 真实标签y_true = [0, 0, 1, 1, 2, 2] # 聚类标签y_pred = [1, 1, 0, 0, 2, 2] score = adjusted_rand_score(y_true, y_pred) print("调整兰德指数：", score)

这个例子中，真实标签和聚类标签的编号并不完全相同。但是：

• 前两个样本被分在一起

• 中间两个样本被分在一起

• 最后两个样本被分在一起

分组关系是一致的，因此 ARI 可以达到较高值，甚至为 1。

这说明：ARI 不关心标签编号是否相同，只关心分组关系是否一致。

示例 2：使用 KMeans 聚类并计算 ARI

from sklearn.datasets import load_iris # 加载鸢尾花数据集from sklearn.cluster import KMeans # KMeans聚类算法from sklearn.metrics import adjusted_rand_score # 调整兰德指数（评估聚类与真实标签一致性）from sklearn.preprocessing import StandardScaler # 标准化 # 加载鸢尾花数据集iris = load_iris()X = iris.data # 特征（150×4）y_true = iris.target # 真实类别（作为参考） # 标准化特征：将每个特征转换为均值为0、方差为1的标准正态分布X_scaled = StandardScaler().fit_transform(X) # fit_transform: 拟合并转换数据 # KMeans聚类model = KMeans( n_clusters=3, # 聚类数量（与真实类别数一致） random_state=42, # 随机种子，保证结果可复现 n_init=10 # 不同初始质心运行次数，取惯性最小的结果) y_pred = model.fit_predict(X_scaled) # fit_predict: 训练聚类并返回簇标签 # 调整兰德指数：比较两个聚类结果（真实标签与预测标签）的相似度# 取值范围 [-1,1]，越接近1表示预测与真实越一致，0表示随机划分ari = adjusted_rand_score(y_true, y_pred) print("调整兰德指数：", ari)

这个例子中：

• y_true 是鸢尾花真实类别

• y_pred 是 KMeans 得到的聚类标签

• adjusted_rand_score() 用于比较二者的一致程度

因为鸢尾花数据集有真实标签，所以可以使用 ARI 作为外部聚类评价指标。

需要注意：KMeans 并不知道真实类别，它只是根据特征空间中的结构自动分组。ARI 用于事后评估这些分组是否接近真实类别。

示例 3：比较不同聚类数量下的 ARI

from sklearn.datasets import load_iris # 加载鸢尾花数据集from sklearn.cluster import KMeans # KMeans聚类算法from sklearn.metrics import adjusted_rand_score # 调整兰德指数（评估聚类效果）from sklearn.preprocessing import StandardScaler # 标准化 # 加载数据iris = load_iris()X = iris.data # 特征（150×4）y_true = iris.target # 真实类别（作为参考标准） # 标准化：均值为0、方差为1，避免特征尺度影响X_scaled = StandardScaler().fit_transform(X) # fit_transform: 拟合并转换 # 比较不同聚类数量（K=2 到 6）for k in range(2, 7): model = KMeans( n_clusters=k, # 当前聚类数量 random_state=42, # 固定随机种子，保证可复现 n_init=10 # 不同初始质心运行10次，取最佳结果 ) y_pred = model.fit_predict(X_scaled) # 训练并获取聚类标签 ari = adjusted_rand_score(y_true, y_pred) # 计算ARI，评估与真实标签的一致性 print(f"K = {k}, ARI = {ari:.4f}") # 输出结果，保留4位小数

这个例子展示了 ARI 在选择聚类数量时的作用。如果目标是让聚类结果尽量接近真实标签，那么 ARI 较高的 K 更值得关注。

但也要注意，真实标签数量并不总是唯一合理的聚类数量。

例如，某个数据集真实有 3 个类别，但在特征空间中可能存在 2 个更明显的大簇。此时 K = 2 的业务解释也可能有意义，只是它不完全对应真实类别。

示例 4：ARI 与轮廓系数同时使用

from sklearn.datasets import load_iris # 加载鸢尾花数据集from sklearn.cluster import KMeans # KMeans聚类算法from sklearn.metrics import adjusted_rand_score, silhouette_score # 调整兰德指数、轮廓系数from sklearn.preprocessing import StandardScaler # 标准化 # 加载数据iris = load_iris()X = iris.data # 特征（150×4）y_true = iris.target # 真实类别（用于计算ARI） # 标准化：均值为0、方差为1，避免特征尺度影响X_scaled = StandardScaler().fit_transform(X) # fit_transform: 拟合并转换 # 比较不同聚类数量（K=2 到 6）for k in range(2, 7): model = KMeans( n_clusters=k, # 当前聚类数量 random_state=42, # 固定随机种子，保证可复现 n_init=10 # 不同初始质心运行10次，取最佳结果 ) y_pred = model.fit_predict(X_scaled) # 训练并获取聚类标签 # 调整兰德指数（需要真实标签）：[-1,1]，越接近1越接近真实划分 ari = adjusted_rand_score(y_true, y_pred) # 轮廓系数（不需要真实标签）：[-1,1]，越接近1表示簇内紧密度和簇间分离度越好 silhouette = silhouette_score(X_scaled, y_pred) # 输出结果，保留4位小数 print(f"K = {k}, ARI = {ari:.4f}, 轮廓系数 = {silhouette:.4f}")

这个例子中：

• ARI 需要真实标签，用来判断聚类结果是否接近真实类别

• 轮廓系数不需要真实标签，用来判断聚类结构是否清晰

如果二者都较高，通常说明聚类结果既接近真实标签，又有较清晰的簇结构。

如果二者不一致，则需要进一步分析：

• 数据中的自然结构是否和真实类别一致

• 聚类数量是否合适

• 特征是否需要重新选择或标准化

• 距离度量是否适合当前数据

📘 小结

调整兰德指数是一种用于评价聚类结果与真实标签一致程度的指标。它基于样本对关系进行比较，关注哪些样本应该在一起、哪些样本应该分开，并对随机一致性进行了修正。ARI = 1 表示两个分组完全一致，ARI 接近 0 表示接近随机水平，ARI 小于 0 表示差于随机。对初学者而言，可以把 ARI 理解为：在有参考答案时，检查聚类结果是否真正把该在一起的样本放在一起，把不该在一起的样本分开。

“点赞有美意，赞赏是鼓励”

查看全文

http://www.jsqmd.com/news/729064/