当前位置：首页 > news >正文

Deep Clustering of Tabular Data by Weighted Gaussian Distribution Learning——基于加权高斯分布学习的表格数据深度聚类

news 2026/7/23 15:24:21

一、研究背景与问题定义

研究缺口：深度学习在图像、文本等领域取得了巨大成功，但在表格数据的聚类分析上，传统方法（如K-Means、GMM）仍然是主流。现有的深度聚类方法主要针对图像数据设计（依赖CNN、假设t分布、处理均匀像素），不适用于具有异构特征、样本量较小、维度较低的表格数据。
核心挑战：
- 表格数据的特征异质性强，缺乏图像数据的空间规律性。
- 表格数据普遍存在聚类不平衡问题（少数类可能被多数类吞并）。
- 现有方法大多假设t分布聚类，且依赖K-Means等传统算法进行辅助，没有专门为表格数据设计的端到端深度聚类框架。

二、提出方法：G-CEALS

本文提出了首个专门针对表格数据的深度聚类框架——G-CEALS（Gaussian Cluster Embedding in Autoencoder Latent Space）。其核心创新点包括：

用多元高斯分布替代t分布：
- 不同于DEC等方法使用的t分布（仅由质心参数化），G-CEALS使用多元高斯分布来建模聚类，可以同时学习聚类质心（μ）和协方差矩阵（Σ），从而更好地刻画聚类的形状和方差。
引入可训练的聚类权重（ω）：
- 为每个聚类学习独立的权重，用于处理聚类不平衡问题，避免少数聚类在训练中被合并。
动态目标分布：
- 不同于传统方法使用固定的闭式目标分布，G-CEALS独立定义并动态更新聚类分布（P）和目标分布（Q），使用交叉熵损失进行优化。
端到端联合优化：
- 联合优化自编码器的重建损失和聚类模块的聚类损失，同时学习对聚类友好的嵌入和聚类分配，无需借助外部传统聚类算法。

三、关键技术策略

早停机制：监控聚类权重（ω），当任一权重低于1/(2K)时停止训练，防止少数聚类被合并。
平衡小批量采样：为保证训练时每个批次都包含所有聚类的样本，从少数聚类中采样相同数量的样本与其他聚类组合，避免因数据不平衡导致训练偏差。

四、实验设置与结果

数据集：使用16个来自OpenML的多样化表格数据集，涵盖不同特征类型、样本量、特征-样本比（F-S比）和特征相关性（C-score）。
基线方法：对比了9种最先进的聚类方法（包括传统K-Means、GMM，以及深度方法DEC、IDEC、DEPICT、DCN、AE-CM、DKM、DynAE）。
评估指标：聚类准确率（ACC）和调整兰德指数（ARI）。

主要结果：

排名最优：G-CEALS在16个数据集上的平均排名为ACC 2.9（1.7），ARI 2.8（1.7），显著优于所有基线方法。
处理不平衡有效：与其他方法（如AE-CM）在ARI上接近零或出现负值不同，G-CEALS在所有数据集上的ARI均为正，表明其对聚类不平衡问题的处理更稳健。
计算效率：相比DCN、AE-CM等深度聚类方法，G-CEALS的训练时间仅为其1/3到1/5，在合理计算成本下获得显著更高的聚类准确率（最高提升64%）。
鲁棒性：在不同特征类型（数值/分类）、F-S比、C-score的数据集上均表现稳定，超参数γ在较宽范围内性能稳定。

五、研究意义与结论

填补空白：这是第一个专门针对表格数据的深度聚类方法，打破了图像驱动方法直接迁移的局限性。
取代传统方法：证明了深度学习方法可以在表格数据上超越K-Means、GMM等传统方法，克服了“传统机器学习仍优于深度学习”的普遍观点。
实践价值：为电子健康记录（EHR）、患者风险分层、缺失值插补等实际应用提供了更强大的无监督分析工具。
未来方向：仍需改进对严重不平衡聚类的算法处理、自动化的模型选择（嵌入维度、网络架构），以及更稳健的学习目标设计。

文章提出了G-CEALS，首个面向表格数据的深度聚类框架，通过可训练的多元高斯分布、动态聚类权重和平衡采样策略，在16个真实表格数据集上取得了最优的聚类准确率和鲁棒性，显著超越了传统聚类和现有图像驱动的深度聚类方法。

这里是自己的论文阅读记录，感兴趣的话可以参考一下，如果需要阅读原文的话可以看这里，如下所示：

摘要

深度学习方法主要用于图像或文本的监督学习，在聚类问题上的应用有限。相比之下，具有异构特征的表格数据在表示学习方面提出了独特的挑战，深度学习尚未能取代传统的机器学习。本文通过开发首个针对表格数据的深度聚类方法之一：自编码器潜在空间中的高斯聚类嵌入（G-CEALS），来应对这些挑战。G-CEALS 是一个无监督深度聚类框架，通过迭代更新各个聚类权重来学习多元高斯聚类分布的参数。基于在十六个表格数据集上的聚类准确率和调整兰德指数（ARI）分数，G-CEALS 方法分别呈现了 2.9(1.7) 和 2.8(1.7) 的平均排名，并且优于九种最先进的聚类方法。与仍然是表格数据聚类的实际常用方法的传统 K-means 和 GMM 相比，G-CEALS 显著提高了聚类性能。为了在表格数据上收获深度学习的众多好处，类似的计算高效且高性能的深度聚类框架势在必行。

关键词表格数据，深度聚类，嵌入聚类，多元高斯，自编码器。

1 引言

深度学习由于其执行并发且高效的表示学习和分类的能力，已经在许多数据密集型研究和应用中取代了传统机器学习。这种并发学习方法优于需要手工制作特征进行分类的传统机器学习[1, 2]。然而，通过来自真实标签的监督信号进行的表示学习可能容易出现过拟合[3]和对抗性攻击[4]。此外，用于监督表示学习和分类的人工标注可能难以获得，并且在所有数据领域中都可能无法获取。因此，通过深度无监督聚类进行的表示学习可能能够实现对实践中存在的大量未标记数据样本的深度学习。

克服监督表示学习局限性的方法之一是通过自监督生成伪标签，这不需要人工标注的监督信号[5, 6]。一个自监督的自编码器将输入数据信息保存在低维嵌入中以供数据重建。然而，由数据重建目标产生的嵌入可能不是下游分类或聚类任务的最优表示[7]。因此，深度学习方法已与聚类算法联合优化，以获得对聚类友好的表示[8, 9, 10, 11, 12]。现有的嵌入聚类方法在联合优化中使用传统的聚类算法（例如 k-means），假设 t-分布簇，并在图像数据集上进行基准测试。虽然使用卷积神经网络（CNN）对图像进行深度表示学习已有深入研究，但对于具有异构特征空间的表格数据，类似的方法尚未得到很好的发展。文献中有强有力的证据表明，在表格数据的监督学习中，传统机器学习优于深度模型[13, 14, 15, 16, 17]。然而，根据最近关于深度聚类的综述[18]，尚未提出用于聚类表格数据的深度学习方法。本文回顾了嵌入聚类文献中的假设，以提出一种新颖的表格数据深度聚类方法。

2 相关工作

最近的一篇综述文章回顾了针对图像、文本、视频和图数据的深度聚类方法，但没有列举应用于表格数据集的例子[18]。最早的嵌入聚类方法之一，深度嵌入聚类（DEC）[8]，受到了关于 t-分布随机邻域嵌入（t-SNE）的开创性工作的启发[19]。DEC 方法首先通过最小化数据重建损失来训练深度自编码器。然后，通过最小化嵌入上的 t-分布聚类（Q）与目标分布（P）之间的 Kullback-Leibler（KL）散度来微调训练好的编码器部分（不包括解码器）。目标分布是通过对 KL 散度损失关于 P 求导并令其为零而得到的闭式数学表达式。因此，在类似的工作中，目标分布（P）也是 t-分布 Q 的函数。后来，DEC 方法中的 k-means 聚类被谱聚类取代，以根据聚类性能提高嵌入质量[20]。

DEC 方法还通过改进的 DEC（IDEC）框架得到了增强[9]。在 IDEC 中，自编码器重建和 KL 散度损失被联合最小化，以训练预训练的深度自编码器。类似策略，包括 t-分布簇、k-means 聚类和 KL 散度损失，被用于文本-图像数据对的多模态表示学习的联合嵌入和聚类学习（JECL）中[21]。通过联合卷积自编码器进行深度聚类（DEPICT）方法通过去噪自编码器学习图像嵌入[22]。与早期方法不同，DEPICT 方法提出了一个带有 softmax 函数的聚类头，以获得没有分布假设的软聚类分配。然而，他们的方法旨在在聚类不平衡是表格数据常见问题时实现平衡聚类。他们证明了交叉熵损失可以替代 KL 散度来最小化 P 和 Q 分布之间的差异。

嵌入聚类文献通常在深度学习框架中使用 k-means 的聚类分配[8, 9, 11, 10, 23, 21, 22]。DEC 方法[8]中提出的 t-分布聚类嵌入假设继续出现在后续研究中[24, 25, 9, 20, 21, 26, 27, 18]。t-分布仅由聚类中心参数化，而多元高斯分布可用于同时学习聚类中心和协方差。此外，t-分布假设最初是为 t-SNE 数据可视化算法的邻域嵌入而提出的[19]。我们认为，用于数据可视化的分布假设可能无法最优地满足聚类的需求。

此外，最近仅在图像数据集上优化和改进的深度聚类方法可能不适用于具有异构特征空间的表格数据，甚至可能不适合[28, 29, 27, 30, 31, 32, 33, 34]。其中一些模型使用基于 CNN 的大型学习架构来聚类大型图像数据集[28, 29, 31]。然而，这些大型基于图像的 CNN 架构不适合学习具有异构特征的表格数据集。其中一些方法对选择的多个超参数的值很敏感[31, 34]。在几项研究中，类标签被利用来在预训练自编码器时确定提前停止点，这可能违反了聚类算法的无监督性质[27, 34]。一些方法还在半监督步骤中使用类标签来执行聚类[32, 33]，这可能违背了聚类算法的无监督性质。因此，需要针对表格数据、解决这些方法论缺点的深度聚类方法。

2.1 贡献

据我们所知，本文通过解决最先进的深度聚类方法的缺点，提出了第一种用于表格数据深度嵌入聚类的方法。首先，我们通过提供理论依据，用多元高斯分布的混合替代当前对 t-分布嵌入的假设，以适应多元表格数据。其次，提出了一种新的嵌入聚类算法，该算法可以学习聚类嵌入和分配，而无需借助传统的聚类方法。第三，多元聚类中心和协方差矩阵作为可训练参数进行更新，并通过各个聚类权重调整聚类分布，以更好地学习不平衡的表格数据。第四，深度自编码器使用动态分布目标直接学习聚类分布，而不是设置数学上闭式的目标分布或 KL 散度损失。

3 理论基础

本节提供了与常用的基准图像数据集相比的表格数据的预备知识。我们对为数据可视化提出的邻域嵌入和为聚类所需的深度嵌入进行了多次对比，以支撑我们提出的方法。

3.1 预备知识

表 1 显示了图像数据和表格数据之间的几个重要对比。有人可能会争辩说，一些高维序列数据，例如基因组学或转换为像素向量的二维图像，可以构建在数据表中。然而，这些向量表示仍然包含规律性或模式同质性，这并不构成表格数据异构性的挑战。因此，具有异构特征空间的表格数据无法利用深度学习方法，因为不存在类似图像的序列或空间规律性。此外，当前文献有选择地使用高维度和大样本量的数据集来证明深度学习方法的有效性[38, 39, 40]。相比之下，最常见的表格数据集具有有限的样本量和维度（表 1），这在深度表示学习中很少被考虑。因此，表格数据被认为是深度学习的最后一座未被征服的城堡[16]，传统的机器学习方法在面对深度神经网络架构时仍然显得有竞争力[16, 15]。

因素	图像数据	表格数据
异质性	均匀像素	异构变量
空间规律性	是	否
样本量	大，> 50,000	小，中位数 < 660
基准数据集	MNIST, CIFAR	无
数据维度	高，> 1000	低，中位数 18
最佳方法	深度 CNN	传统机器学习

表 1: 图像数据和表格数据之间的对比，需要为表格数据设计不同的深度学习架构。中位数样本量和数据维度取自 UCI 机器学习库中下载量最高的 100 个表格数据集[41]。

3.2 用于数据可视化的嵌入

图 1: 从深度卷积神经网络提取的高维图像特征的二维嵌入，引自[42]

表 2: 用于数据可视化和聚类的邻域嵌入之间的理论差异。

因此，在高维中放置在中等距离的数据点会被 t-分布拉得更远，以帮助在 2D 空间中进行数据可视化。在聚类嵌入的背景下，我们认为低维中点之间的这种额外分离可能会改变它们的聚类分配。这种现象在图 1 中观察到，其中高维深度图像特征被映射到 1) t-SNE 和 2) 两个主成分空间。数据点的分散在 t-SNE 映射（图 1 (a)）中很明显，其中出现了一个蓝点在图的左侧，其聚类分配被破坏，这与 PCA 映射（图 1 (b)）不同。这一观察结果与表 2 中呈现的数据可视化和聚类之间的对比一致。

3.3 用于聚类的嵌入

用于聚类的嵌入是通过将聚类分离信息注入深度神经网络的低维潜在空间来实现的。

4 提出的方法

我们提出了一种新颖的深度聚类方法，称为自编码器潜在空间中的高斯聚类嵌入（G-CEALS），具体如下。首先，多元高斯分布取代了广泛使用的 t-分布（公式 4）。与 t-分布不同，高斯分布可以调节聚类的方差或散度。涉及高斯混合模型的深度学习方法以前在异常和错误检测任务中显示出有希望的结果[43, 44]。然而，类似的方法尚未针对多个高斯分布或聚类的不平衡进行调整。

4.1 优化用于聚类的深度嵌入

图 2: 针对表格数据提出的深度聚类框架。一个未标记表格数据集的所有样本用于训练自编码器，同时与两个子网络：一个聚类模块和一个带有 softmax 输出层的 MLP 头。最终的聚类分布（P）和分配在聚类模块之后获得。最终的聚类分配使用 ACC、ARI 和 NMI 性能指标进行评估。

4.2 聚类不平衡与收敛

除了确保训练后的聚类分离外，所提出的聚类损失的收敛也很重要。图 3 显示了两种不同 γ 值下聚类损失的平滑收敛。较大的 γ 值（1.0）加速了收敛。然而，较低的 γ 值（0.1）有助于以较慢的速度实现稳定和平滑的收敛。因此，对于需要此超参数的模型，选择 γ 值为 0.1。

所提出的深度聚类方法在创建聚类分离方面的有效性使用 t-SNE 图在图 4 中可视化。聚类可视化发现了一个问题，即在没有提前停止的情况下长时间训练后，少数聚类可能会与多数聚类合并。聚类的合并是由于表格数据中的聚类不平衡造成的。我们通过采用两种策略来解决这个问题。首先，我们基于聚类权重 ωj 的更新实施了一个提前停止标准，这是聚类大小的度量。当聚类在训练期间与另一个聚类合并时，其权重变为零，可以通过设置聚类权重的阈值来防止。当有 K 个平衡聚类时，权重初始值为 1/K。当至少一个聚类权重低于 1/K 的 50% 时，我们停止训练，以防止可能的聚类合并。

算法 1提出的 G-CEALS 深度聚类算法

1: 输入: d 维表格数据, X ∈ ℝ^{n×d} 2: 输出: 对聚类友好的嵌入, Z ∈ ℝ^{n×m} (m ≪ d) 和软聚类分配 (q_{ij}) 3: 预训练自编码器 ({W_encoder, W_decoder}) ← X 4: 嵌入 (Z) ← 编码器(X, W_encoder) 5: 初始化伪标签: Ŷ ← k-means(Z) 6: 初始化第 j 个聚类参数: μ_j ← k-means(Z), Σ_j ← I, ω_j ← 1/k 7: 可训练的聚类分布参数: W_cluster ← {[μ_1, μ_2, ..., μ_k], [Σ_1, Σ_2, ..., Σ_k]} 8: 初始化: W^0 = {W_encoder, W_decoder, W_cluster, W_MLP} 9: for t = 1 → n epochs do 10: X_b ← 从 X 中采样 mini-batch 以保证均匀的类别分布 11: Z^t ← 编码器(X_b, W_encoder^t), \hat{X}_b ← 解码器(Z^t, W_decoder^t) 12: p_{ij} ← (Z^t, W_cluster^t) 使用公式 9 13: q_{ij} ← (Z^t, W_MLP^t) 使用公式 10 14: L ← L_recon + γ * L_cluster 公式 13 15: W^{t+1} ← W^t - α ∇_{W^t} L 更新可训练参数以最小化公式 13 中的联合损失 16: p'_{ij} ← (Z, W_cluster^{t+1}), Z ← 编码器(X, W_encoder^{t+1}) 使用公式 8 17: ω_j ← 使用公式 8 更新 18: if ω_j ≤ 1/(2k) then 19: 停止训练 20: end if 21: end for

表 3:本研究中使用的十六个表格数据集的总结。特征维度结合了数值特征和独热编码的分类特征。F-S 比是特征与样本的比率。C-分数表示所有特征对之间的平均绝对相关性。

其次，我们使用小批量梯度下降来优化深度聚类模型。然而，当数据集不平衡时，小批量可能不包含所有聚类样本，导致聚类准确率被夸大或有偏差。我们使用 K-means 聚类获得伪标签并识别少数聚类。如果少数聚类有 nmin 个样本，我们随机从其他聚类中选择相同数量的样本，以形成 256 或更低的批量大小。这种随机抽样在每个周期执行，并重复 1000 次以训练模型。因此，批量大小根据少数聚类的大小在不同数据集之间有所变化。

三个聚类参数（均值向量、协方差矩阵和聚类权重）的收敛性在图 5 中针对一个双聚类问题进行了展示。为了更好地可视化，我们使用了两个连续均值向量更新之间的 L2 范数距离以及协方差矩阵的行列式。

5 实验

本节确定了用于评估我们提出的深度聚类方法的性能的表格数据集、基线算法和指标。

5.1 表格数据集

所有方法都在来自 OpenML-CC18 [46] 的 16 个不同的表格数据集上进行了评估。表 3 总结了 16 个表格数据集，代表了各种应用领域和广泛的数据统计范围。表格数据的异质性进一步由表中的 F-S 比和 C-分数表征。F-S 比代表数据集的特征与样本比率。C-分数提供了特征相关性的度量。它显示了所有特征之间绝对相关性的平均值。值得注意的是，先前关于表格数据分类（而非聚类）的研究有选择地使用具有非常大样本量的数据集[38, 39, 40]。在实践中，大多数表格数据领域包含有限的样本和特征，无论是否存在分类变量，这与图像数据集不同。

5.2 将基线方法适配到表格数据

最近关于深度聚类方法的综述显示没有聚类表格数据集的例子[18, 47]。深度嵌入聚类方法总是针对基准图像数据集进行设计和评估。因此，由于表 1 中呈现的以数据为中心的对比，现有的深度聚类方法可能不是适用于表格数据的理想基线。

DEC [8] 和 IDEC [9] 方法使用一个全连接的自编码器架构，形式为 d-500-500-2000-10-2000-500-500-d。深度 k-means (DKM) [10] 和 AE-CM [5] 方法在将嵌入的固定维度 (10) 替换为目标聚类的数量 (k) 后，使用了相同的学习架构。动态自编码器 (DynAE) 使用与 DEC/IDEC 相同的架构[11]。然而，其目标函数通过图像增强（平移和旋转）进行正则化，这在本文中必须对表格数据禁用。其他几种方法基于卷积神经网络（CNN）架构[48, 22]，而全连接神经网络是表格数据的默认选择。例如，Caron 等人使用 AlexNet 和 VGG-16 从图像中学习视觉特征，经过 Sobel 滤波以去除颜色和增强对比度[6]，这不适用于表格数据。他们的 deepCluster 架构有五个卷积层，最多包含 384 个 2D 图像滤波器来学习图像特征。使用在图像上预训练的 VGG-16 模型进行表格数据的迁移学习并非易事。DEPICT 方法使用卷积去噪自编码器从损坏的图像中重建原始图像[22]。相反，我们使用标准的卷积自编码器，将 2D 滤波器替换为 1D 核，以学习表格数据向量的嵌入，因为图像去噪在表格数据上无法重现。

在将七种最先进的深度聚类方法（DEC, IDEC, AE-CM, DynAE, DEPICT, DKM, DCN）适配为表格数据集的基线深度聚类方法时，考虑了所有这些方法论方面，同时还包括了两种传统的聚类方法（k-means）和高斯混合模型（GMM）。

5.3 评估

提出的深度聚类模型训练涉及自监督的数据重建和聚类分布学习，不涉及真实标签。聚类嵌入的质量在下游聚类中使用聚类准确率（ACC）[49]进行评估，如公式 14 所示。

图 3: 使用 ID 为 1510 的表格数据集，对于两个 γ 值获得的重建和聚类损失。较高的 γ 值导致聚类损失收敛更快，但减慢了重建损失。然而，为了确保聚类参数和自编码器权重的平滑收敛，优选较低的值。

这里，TP 和 TN 表示真正例对和真负例对，NC2 表示可能的配对数量，E(RI) 是期望的兰德指数。对于多类分类，TP 和 TN 使用一对其余方案确定。

6 结果

所有实验均在运行 Ubuntu 20.04、配备 64GB RAM 和 16GB 内存的 NVIDIA Quadro RTX A5000 GPU 的 Dell Precision 5820 工作站上进行。在模型训练之前，我们使用均值和标准差对数值特征进行标准化，并对分类特征进行独热编码。

6.1 学习架构与实现

所有算法均使用 Python 实现。提出的深度学习方法使用 PyTorch 包开发，而传统方法使用 scikit-learn 实现。基线实现从其各自的 GitHub 仓库获得。具体来说，DEPICT 算法使用 Theano 包实现，其他方法使用 TensorFlow 或 Keras 包实现。

如第 5.2 节所述，所有基线深度聚类算法都是在图像数据集上进行基准测试的。因此，我们对源代码进行了最小的修改，以允许输入和学习表格数据集而非图像数据。所有方法，包括提出的方法，都使用相同架构的全连接自编码器（d-500-500-2000-m-2000-500-500-d），其中 m 是嵌入维度。DKM 方法将值 m 设置为聚类的数量（k）。适配后的 DEPICT 方法使用带有 1D 滤波器的基于 CNN 的架构来处理表格数据。对于所有实验，学习率设置为 0.001，使用 Adam 优化器，批量大小为 256。每种方法预训练自编码器 1000 个周期，然后与聚类损失（公式 13）联合微调另外 1000 个周期。

深度学习方法相对于传统聚类的一个明显好处是其灵活的嵌入大小。因此，考虑到表格数据集和特征的异质性，对于每对深度学习方法和数据集，嵌入维度在 5 到 20 之间以五个间隔（5, 10, 15, 20）变化。然而，DMK 方法将嵌入大小设置为等于聚类的数量。深度聚类方法根据给定数据集产生最佳聚类性能的嵌入维度进行比较。

6.2 聚类不平衡与收敛

除了确保训练后的聚类分离外，所提出的聚类损失的收敛性也很重要。图3显示了两种不同γ值下聚类损失的平滑收敛。较大的γ值（1.0）加速了收敛。然而，较小的γ值（0.1）有助于以较慢的速度实现稳定和平滑的收敛。因此，对于需要此超参数的模型，选择γ值为0.1。

所提出的深度聚类方法在创建聚类分离方面的有效性使用图4中的t-SNE图进行了可视化。聚类可视化发现了一个问题：在没有早停的情况下长时间训练后，少数聚类可能会与多数聚类合并。这种聚类合并是由于表格数据集中的聚类不平衡导致的。我们通过采用两种策略来解决这个问题。

首先，我们实施了一个基于聚类权重ωj更新的早停准则，该权重是聚类大小的度量。当某个聚类在训练过程中与另一个聚类合并时，其权重变为零，这可以通过设置聚类权重的阈值来防止。当存在K个平衡聚类时，权重初始值为1/K。当至少有一个聚类权重降至1/K的50%以下时，我们停止训练，以防止可能的聚类合并。

其次，我们使用小批量梯度下降来优化深度聚类模型。然而，当数据集不平衡时，小批量可能无法包含所有聚类的样本，导致聚类准确率被夸大或产生偏差。我们使用K-means聚类获取伪标签并识别少数聚类。如果少数聚类有nmin个样本，我们随机从其他聚类中选择相同数量的样本，以构成批量大小为256或更小的批次。这种随机采样在每个epoch都进行，并重复1000次来训练模型。因此，批量大小根据少数聚类的大小在不同数据集之间有所变化。

图5展示了一个两聚类问题中三个聚类参数（均值向量、协方差矩阵和聚类权重）的收敛情况。为了更好地可视化，我们使用了两个连续均值向量更新之间的L2范数距离以及协方差矩阵的行列式。

6.3 用于聚类的嵌入维度

图像是高维数据，通常投影到低维嵌入上以实现类别或聚类的有效分离。与图像数据不同，表格数据的特征维度可能相当低且异构。在缺乏有效特征提取器（如用于图像的 CNN）的情况下，尚不清楚表格数据集是在高于还是低于其原始特征空间的维度上可以更好地聚类。因此，聚类表格数据的最佳嵌入大小可能因数据集或深度聚类方法而异。我们确定为给定的深度聚类方法和表格数据集产生最佳聚类性能的嵌入维度。我们观察到，低维表格数据集可以从使用过完备自编码器（潜在空间大于输入空间）学习更高维嵌入中受益。因此，我们在后续部分中使用这些最佳嵌入维度来比较我们提出的方法和基线深度聚类方法。

表 4: 提出的 G-CEALS 方法与基线传统或深度聚类方法在十六个表格数据集上的聚类准确率比较。

表 5: 提出的 G-CEALS 方法与基线传统或深度聚类方法在十六个表格数据集上的调整兰德指数（ARI）比较。

6.4 表格数据集的聚类

表 4 展示了基线方法和提出方法的聚类准确率（ACC）和排名顺序。与关于表格数据的其他研究类似，由于数据异质性，没有一种方法能在所有数据集上表现最佳。AE-CM 方法在 ID 为 40994、1480、1464、1068、1049 和 40975 的数据集上产生了优越的聚类准确率。然而，该方法在其他一些数据集上产生了一些最低的准确率分数。类似地，DynAE 方法在三个 ID 为 458、1050 和 40982 的数据集上优于所有方法。我们提出的 G-CEALS 方法在四个 ID 为 1063、1510、11 和 37 的数据集上优于所有基线。

因此，表格数据文献通常使用排名顺序来展示学习算法的泛化能力。我们提出的G-CEALS方法在16个表格数据集上显示出最佳的平均排名2.9（1.7），优于所有其他有竞争力的深度聚类基线方法DCN（5.1（3.7））和AE-CM（5.6（4.8））。这些结果很重要，因为传统的聚类方法长期以来一直被用作表格数据的实际常用方法。在Z空间上的GMM聚类（GMM (Z)）仅被两种深度聚类方法（DCN和所提出的G-CEALS）超越。

基于聚类准确率的排名顺序结果与使用ARI分数获得的结果一致。表5根据ARI分数，将我们提出的深度聚类方法列为所有方法中最佳（平均排名2.8（1.7））。尽管AE-CM方法在多个数据集上产生了有竞争力的聚类准确率（ACC）（表4），但其ARI分数在大多数情况下几乎为零。对于几乎所有其他基线方法，至少有一个数据集的ARI分数为负，这表明预测的聚类标签与真实标签之间存在不一致。相比之下，所提出的G-CEALS方法获得的ARI分数没有一个是负的。

表 6: 对数据集 1510 进行 1000 个周期聚类所需的时间（秒）。相对时间是其他基线方法的计算时间相对于所提出方法所用时间（相对时间 1.0）的比值。

6.5 时间复杂度

传统聚类方法成为表格数据实际选择的原因之一是计算时间。即使付出了大量计算的代价，深度学习方法在超越传统机器学习处理表格数据方面也未能取得巨大成功。表 6 展示了所有方法在使用 ID 为 1510 的数据集时的训练时间。相对于其他竞争性的深度聚类方法（DCN， AE-CM），提出的 G-CEALS 需要的计算时间少三到五倍。然而，相比计算时间更快的基线方法（K-means (X), GMM (X), GMM (Z), K-means (Z), DEC），一分钟多一点的计算时间带来了高达 64% 的聚类准确率提升。因此，提出的 G-CEALS 方法以相当低的计算成本提供了优越的聚类准确率。

7 结果讨论

本文提出了一种针对表格数据的深度聚类方法，而最近一篇关于深度聚类方法的综述表明还没有针对此类数据的工作[18]。本文的主要发现如下。首先，提出的 G-CEALS 方法在十六个表格数据集上的平均排名优于十一个基线传统和深度聚类方法。其次，提出的方法通过学习高斯聚类参数，在深度特征空间上展示了有效的聚类分离，而现有模型学习的是 t-分布聚类的均值。第三，提出的方法通过学习各个聚类权重而不是假设聚类平衡，来处理表格数据中的聚类不平衡问题。第四，与其他竞争性的深度聚类方法相比，提出的方法显示出更快的计算成本。即使提出的方法在某些情况下计算成本高于一些传统聚类方法，它也提供了优越的聚类准确率。

7.1 传统聚类与深度聚类

在表格数据的深度分类研究中，一个普遍的观察是输入特征（X）的传统机器学习通常优于深度学习方法[16, 17]。然而，简单的自编码器学习到的嵌入（Z）比传统的 X 机器学习实现了更好的聚类性能。在深度聚类方法中，DCN 和 AC-EM 方法显示出优于传统聚类方法的聚类准确率。然而，ARI 分数显示，在自编码器学习的嵌入（Z）上的传统聚类（K-means 或 GMM）优于所有基线的深度或传统聚类方法（在 X 上的 K-means 或 GMM）。众所周知，准确率指标在数据不平衡的情况下可能不可靠。数据不平衡问题在图像数据集中通常不像在表格数据集中那样被视为一个问题。在这种背景下，像 ARI 这样的指标可能揭示有关聚类随机性的重要见解。因此，当前在图像数据集上基准测试或为其开发的深度聚类方法（AE-CM, DKM, DCN），与更传统的方法（GMM(Z), K-means (Z), DEC, IDEC）相比，可能无法在表格数据上产生稳健的聚类性能。相比之下，提出的 G-CEALS 方法在聚类准确率和 ARI 分数上都取得了最佳性能，表明其对表格数据的有效性。

7.2 图像与表格数据嵌入

传统的聚类方法在计算机视觉中已经过时，因为在高维同质像素空间上进行聚类是无效的。相比之下，表格数据集具有较小的样本量和维度以及异构特征，而传统聚类仍然相关且有效。在此背景下，我们的结果显示，具有卷积神经网络的深度架构在学习表格数据嵌入方面不如处理图像数据时有效。我们的观察证实了一项初步研究，该研究表明，为图像数据集优化的最先进深度聚类方法在表格数据上不能产生令人满意的聚类准确率[50]。这表明需要专门针对表格数据的学习算法和架构，类似于提出的 G-CEALS 方法。

7.3 数据统计对聚类性能的影响

表格数据被称为异构，是因为特征空间和数据统计的异质性。我们在这种情况下讨论三种情景。首先，分类特征通过额外的独热编码二进制列扩展了数据维度。十六个表格数据集中的三个（IDs 469， 23， 40975）仅包含分类特征。提出的 G-CEALS 对于分类表格数据是最佳的（平均排名 2.7 (0.6)），其次是其他深度学习方法（平均排名 6.5 (3.5)）和传统聚类方法（平均排名 7.3 (1.8)）。对于十二个纯数值表格数据集，平均排名顺序相似，G-CEALS（3.0 (2.0)），其他深度学习方法（6.6 (3.5)），传统聚类（7.0 (3.4)）。AE-CM 仅在一个混合数据集（ID 1480）上取得了最佳的聚类准确率（71.3），但遭受了负的 ARI 分数（-0.001）。相反，G-CEALS 在聚类准确率（65.2）和 ARI（0.033）之间展示了更好的平衡。

其次，较高的 F-S 比表示更宽的数据表，而较低的 F-S 比表示更高的数据表。具有较高 F-S 比的表格数据集更有可能给机器学习带来维度灾难。对于 F-S 比低于 1.0 的数据集，G-CEALS 实现了 2.0 (1.0) 的平均排名，而其他深度和传统方法的平均排名分别为 6.4 (3.6) 和 8.2 (2.8)。相反，对于 F-S 比高于 1.0 的数据集，G-CEALS 的平均排名为 3.2 (1.8)，其他深度学习方法为 6.6 (3.5)，传统聚类为 7.1 (3.1)。

第三，C-分数衡量表格数据集的内部特征相关性，这可能会影响机器学习的性能。具有高 C-分数（> 0.10）的表格数据集最好使用 G-CEAL 方法进行聚类（平均排名 3.3 (1.9)），而 G-CEAL 方法在具有低 C-分数（< 0.10）的表格数据集上排名最佳（2.3 (1.2)）。深度学习方法在低和高 C-分数数据集上的平均排名顺序分别为 6.6 (3.3) 和 6.5 (3.6)。传统聚类方法在低和高 C-分数数据集上显示出较差的排名顺序，分别为 7.5 (3.1) 和 7.2 (3.6)。

7.4 消融研究

聚类损失平衡参数 γ 对聚类准确率和 ARI 分数的影响如图 6 所示。结果表明，聚类性能在不同的 γ 值下保持相对稳定。然而，γ 值的选择会影响收敛的时间和平稳性，尽管延迟的收敛预期会产生类似的聚类性能。因此，优选较低范围内的 γ 值以确保稳定的收敛和聚类性能。

7.5 局限性

尽管聚类性能令人鼓舞，但与其他任何方法一样，提出的 G-CEALS 方法也有若干局限性。通过深度学习进行无监督学习或聚类并非易事，因为深度学习通常期望一个目标变量或一个稳健的学习目标。通过创新学习目标或目标，仍有很大的空间来提高聚类性能。此外，数据或聚类不平衡在表格数据集中很常见，这需要更多的算法解决方案，而不是所提出的提前停止来避免聚类合并。与计算机视觉应用中的图像数据集不同，由于表格数据集的异质性，模型选择的几个方面（例如，嵌入维度和网络架构）会发生变化。所提出的方法需要更好的模型选择和优化方法。

8 结论

本文提出了一种新颖的深度聚类方法，用于同时学习未标记表格数据的聚类友好型嵌入和聚类分配。提出的 G-CEALS 方法相对于九种最先进的聚类方法的优越性表明，多元高斯分布比广泛使用的t-分布能更好地学习聚类。此外，动态更新目标聚类分布比为深度聚类设置闭式目标更有效。聚类权重对于在聚类不平衡期间确保正确的聚类分离至关重要。建议在选择合适的聚类方法时采用数据知情决策，因为一种方法可能不适用于所有表格数据。所提出的深度聚类展示了一种有前途的方法，可能会取代传统的机器学习方法来聚类表格数据。

查看全文

http://www.jsqmd.com/news/881049/