当前位置：首页 > news >正文

Paper Reading: Tab-PET: Graph-Based Positional Encodings for Tabular Transformers

news 2026/4/17 12:23:39

研究动机
文章贡献
理论基础
本文方法
- 图估计
- 位置编码生成
- 位置编码集成
实验结果
- 合成数据集实验
  - 数据生成方法
  - 实验结果
- 真实数据集实验
  - 数据集和实验设置
  - 图估计方法分析
  - 分类与回归性能对比
  - 与可学习位置编码的对比
  - 真实数据集上的 PE 与有效秩
优点和创新点

Paper Reading 是从个人角度进行的一些总结分享，受到个人关注点的侧重和实力所限，可能有理解不到位的地方。具体的细节还需要以原文的内容为准，博客中的图表若未另外说明则均来自原文。

论文概况	详细
标题	《Tab-PET: Graph-Based Positional Encodings for Tabular Transformers》
作者	Yunze Leng, Rohan Ghosh, Mehul Motani
发表会议	Fortieth AAAI Conference on Artificial Intelligence（AAAI 2026）
发表年份	2026
会议等级	CCF-A
论文代码	https://github.com/kentridgeai/Tab-PET

作者单位：

Department of Electrical and Computer Engineering, College of Design and Engineering, National University of Singapore
N.1 Institute for Health, Institute for Digital Medicine (WisDM), Institute of Data Science, National University of Singapore

研究动机

表格数据是机器学习中最常见的数据形式，广泛应用于金融、医疗、推荐系统等领域。然而，与图像、文本、音频等数据不同，表格数据缺乏固有的结构性先验，如空间局部性、序列顺序、频谱连贯）。许多实际表格数据集样本量有限（数百到数千）但特征数量多，且经过独热编码后维度更高，特征间交互稀疏且难以建模。同时包含类别型和连续型特征，需要不同的处理方式。缺乏结构先验是最核心的挑战，表格数据没有像 CNN 可利用的平移不变性，也没有像 Transformer 在 NLP 中可利用的顺序。这使得模型难以高效学习，尤其是基于自注意力的 Transformer，加剧了小样本和高维问题的挑战。
虽然 TabTransformer、SAINT、FT-Transformer 等模型在表格数据上取得了进展，但它们通常没有使用位置编码。这是因为表格数据特征顺序通常是任意的，且特征间的结构关系很少被预先定义。当前学界的一种普遍看法是，位置编码无法使表格 Transformer 受益。基于上述背景，论文旨在解决的问题是：如何在本身缺乏固有结构先验的表格数据中，为 Transformer 模型引入有意义的结构性归纳偏置，从而提升其泛化性能？

文章贡献

为论证并实现将结构先验（位置编码）引入表格 Transformer 的有效性，本文提出一种名为 Tab-PET 的表格 Transformer 生成图结构位置编码的框架。首先，对数据进行预处理，通过基于关联的统计方法（如斯皮尔曼相关系数）估计一个特征关系图。其中每个节点代表一个特征，边权重表示特征间依赖程度。然后，计算该图的拉普拉斯矩阵，选取其前 k 个与后 k 个特征向量，拼接并缩放后生成每个特征对应的固定位置编码。最后，将这些位置编码与原始特征嵌入向量拼接，作为改进的输入送入 Transformer 模型进行训练。该方法通过注入源自数据内部结构的归纳偏置，旨在降低模型学习问题的内在维度。通过合成数据实验验证了该方法的有效性依赖于数据内部结构，并在 50 个真实数据集上进行了广泛实验，表明 Tab-PET 能持续、显著地提升多种主流表格 Transformer 的性能，其表现优于强大的梯度提升树基线和可学习位置编码方法。

理论基础

已有大量研究表明，特征具有较低的秩（即较低的内在维度）通常能带来更好的泛化性能。一项重要研究指出，数据的内在维度同时控制着近似误差（训练拟合）和泛化误差。因此，一个架构若能通过产生低秩特征来降低学习任务的维度，这在泛化角度上是一个积极的信号。
本文的理论结果表明位置编码能够直接降低 FT-Transformer 中 CLS 输出嵌入的有效秩，CLS 输出最终会通过全连接层用于最终预测。对于一个表示 \(n\) 个样本CLS嵌入的矩阵 \(X \in \mathbb{R}^{n \times d}\)，其有效秩定义为：

\[r_{\text{eff}}(X)=\exp\left(-\sum_{i=1}^{r}\tilde{\sigma}_{i}\log\tilde{\sigma}_{i}\right) \]

其中，\(\tilde{\sigma}_{i} = \sigma_{i} / \sum_{j=1}^{r} \sigma_{j}\) 是通过 SVD 分解 \(X = U\Sigma V^{T}\) 得到的归一化奇异值，\(r\) 是 \(X\) 的秩。这个公式通过奇异值分布的香农熵，捕捉了学习表示的内在维度。

定理 1. [随机输入下的有效秩] 设 \(x \in \mathbb{R}^{d}\) 为一个单层、单头FT-Transformer的输入向量，其分量 \(x_{i}\) 独立同分布且 \(x_{i} \in (0,1)\)。定义相关符号和假设（详见原文）。定义：

\[C_{\alpha}=\exp\left(\frac{\alpha\tau-2c_{K}c_{Q}c_{q}}{\sqrt{d_{T}}}\right) \]

则经过自注意力层后，CLS令牌输出的有效秩 \(r_{\text{eff}}\) 满足：

\[r_{\text{eff}} \le (C_{\alpha}+d)\cdot\exp\left(-\frac{C_{\alpha}}{C_{\alpha}+d}\cdot\log C_{\alpha}\right) \]

在 \(C_{\alpha} \gg d\) 的区间内，上式可简化为 \(r_{\text{eff}} \approx 1 + \frac{d}{C_{\alpha}}\)。

备注 1. 当 \(C_{\alpha} \gg d\) 时，\(r_{\text{eff}} \approx 1 + C e^{-\alpha\tau / \sqrt{d_{T}}}\)。因此，当通过增大 \(\alpha\) 来赋予位置编码更高权重时，有效秩可以被显著降低，但前提是 \(\tau > 0\)。然而，如果不使用任何位置编码（即 \(p_i = [0,0,..0]\)），则 \(\tau = 0\)。因此，没有位置编码时，有效秩会显著更大。

定理 2. [结构化输入下的有效秩] 考虑与定理 1 相同的设定，但输入向量 \(x \in \mathbb{R}^{d}\) 具有如下结构：\(d\) 为偶数，且：

\[x_{i}=\begin{cases}\theta & \text{for } i \le d/2,\\\ \theta^{\prime} & \text{for } i > d/2,\end{cases} \]

其中 \(\theta, \theta^{\prime} \in (0,1)\) 是共享的潜在变量，\(\beta_{i}, \gamma_{i} \in \mathbb{R}\) 是系数。则经过自注意力后，CLS 令牌输出的有效秩 \(r_{\text{eff}}\) 满足：

随机位置编码：结果简化后，当 \(C_{\alpha} \gg d\) 时，\(r_{\text{eff}} \approx 1 + \frac{d}{2 C_{\alpha}}\)。
组内共享位置编码：如果 \(p_i\) 对所有 \(i \le d/2\) 是固定的，且对 \(i > d/2\) 是另一个固定向量，则结果简化后，当 \(C_{\alpha}\) 很大时，\(r_{\text{eff}} \approx 1 + \frac{1}{C_{\alpha}}\)。

备注 2. 上述结果表明，FT-Transformer 的 CLS 令牌输出的有效秩，取决于位置编码是否适应了底层数据的结构。当某些输入维度彼此相似时（如定理2所示），为相似维度分配相同的位置编码可以显著降低 CLS 输出的有效秩。因此，选择遵循数据结构的恰当位置编码，可以降低学习问题的维度，从而提升泛化性能。当然，这也存在一些局限性。对于本质需要更高有效秩才能妥善处理的任务，可能不会从加入位置编码中受益。

本文方法

在表格 Transformer 中估计和集成位置编码包含 4 个步骤：图估计 -> 位置编码生成 -> 位置编码集成，整体流程可概括为下图所示：

图估计

为确保后续步骤的公平性和消除隐含的排序偏差，采取以下标准化预处理：

变量类型	操作	说明
类别变量	独热编码	移除了其原生基于顺序表示可能引入的任何结构性偏置，但副作用是特征维度会增加，影响后续图估计的规模。
连续变量	标准化	使其均值为 0，方差为 1。

预处理后，每个输入样本表示为一个 \(d\) 维特征向量：

\[x^{(j)}=\left[x_{1}^{(j)}, x_{2}^{(j)},\ldots, x_{d}^{(j)}\right]^{\top},\quad j=1,\ldots, m \]

其中 \(m\) 是样本数。将每个特征 \(x_i\) 视为图中的一个节点，边则代表特征之间的统计或因果依赖关系。本文探索了两种主要的图学习范式：

基于因果的方法：该方法假设线性结构因果模型 \(x = A x + \epsilon\)，其中 \(A\) 是表示因果关系的加权邻接矩阵，\(\epsilon\) 是独立噪声向量。应用如 LiNGAM 和 NOTEARS 等算法来学习这个因果图，得到有向无环图。
基于关联的方法：节点 \(x_i\) 和 \(x_j\) 之间的边权重 \(w_{ij}\) 定义为它们统计依赖性的函数：\(w_{ij} = \rho(x_i, x_j)\)。度量 \(\rho\) 可选择皮尔逊相关、斯皮尔曼等级相关或互信息。对于基于互信息的图估计，则采用 Chow-Liu 算法来确保得到的结构是一个有向无环图。

位置编码生成

给定估计出的图按以下步骤生成位置编码：

对称化：首先将邻接矩阵对称化，得到无向版本：\(A_{\text{sym}} = \frac{1}{2}(A + A^{\top})\)。
拉普拉斯矩阵：计算图的拉普拉斯矩阵：\(L = \overline{D} - A_{\text{sym}}\)，其中 \(D\) 是度矩阵。
特征向量选择：选择 \(L\) 的前 \(k\) 个和后 \(k\) 个特征向量（排除第一个常值特征向量），将它们归一化（跨节点零均值、单位方差），并拼接形成位置编码矩阵：\(P = [e_2, \ldots, e_{k+1}, e_{d-k+1}, \ldots, e_d]\)。
缩放：通过超参数 \(\alpha\) 来调节这些编码的影响强度：\(P^{\prime} = \alpha \cdot P\)
类别特征处理：对于具有多个独热编码节点的类别特征，我们对单个编码进行平均，为该特征生成一个统一的位置编码向量。

位置编码集成

在基于 Transformer 的表格模型架构中，每个特征经过标记化后得到一个 \(n\) 维嵌入向量。通过拼接的方式将估计出的位置编码 \(P^{\prime}\) 集成到模型中：

\[z^{\prime}_{i} = [z_{i}; p^{\prime}_{i}] \in \mathbb{R}^{n+2k} \]

其中，\(z_i\) 是特征 \(x_i\) 的原始嵌入，\(p^{\prime}_i\) 是缩放后的位置编码。随后，这些修改后的嵌入将作为训练期间自注意力层的输入。

实验结果

合成数据集实验

通过设计可控的合成实验，旨在验证一个假设：位置编码的益处是否与表格数据内部存在的结构性关系本质相关？

数据生成方法

定义“结构”为特征之间的关联程度，如果所有特征都独立，则不存在有意义的成对关系。为了模拟可控的结构，我们将特征空间划分为 \(k\) 个组，使得组内特征共享潜在的关联，而组间特征保持独立。
给定输入维度 \(d\) 和分区数量 \(k\)，合成数据生成过程如以下伪代码所示。当 \(k\) 增大时，大多数特征会落在各自的组中，导致特征独立，结构最小化。当 \(k\) 较小时，许多特征共享相同的生成变量，从而增加了结构。考虑的场景是生成的数据集构成一个回归问题，其中底层函数是其中一个分区的线性函数。

实验结果

在合成数据集上评估 FT-Transformer 模型，输入维度固定为 \(d=30\)，并使用基于斯皮尔曼相关的图来生成位置编码。每个特征嵌入与位置编码拼接，并通过超参数 \(\alpha\) 缩放以调节其影响。为分析结构变化的影响，将特征划分为 \(k\) 个组，并将结果分为三个区间：高结构 (\(k \le 8\))、中等结构 (\(10 \le k \le 22\))、低结构 (\(k > 22\))。评估了在不同 \(\alpha\) 值和分组数量 \(k\) 下的准确性。
下图展示了不同结构区间下的性能表现，具有更强内部关联的数据集（高结构）从图衍生位置编码中受益更多。随着位置信号通过更大的 \(\alpha\) 值放大，性能提升也更大，这验证了当数据展现出有意义的结构时，位置编码最有用。

即使在高度非结构化的设置中，也观察到位置编码带来的微小但一致的性能提升。这是因为即使输入是非结构化的，位置编码也能降低学习问题的有效秩（定理1），且生成结构是一个简单的线性函数，并不需要高秩特征。同时，过度放大位置编码的贡献可能会降低模型性能，如将 \(\alpha\) 增大到 10。这是直观的，因为过大的 \(\alpha\) 会不成比例地加权位置信号，可能会掩盖查询-键-值分解中编码的原始输入内容。

真实数据集实验

数据集和实验设置

实验在来自 OpenML 的 50 个表格数据集上进行牟其中 25 个分类、25 个回归。这些数据集在样本量、特征维度和类别变量比例上各不相同。为保留统计特性，采用分层抽样，并按照 60:20:20 的比例划分为训练集、验证集和测试集。
搜狗高速浏览器截图20260415190400
图估计方法方面，一些图估计方法（如 NOTEARS）计算成本很高，基于关联的图使用公式（1）中的成对度量计算权重。Chow-Liu 需要额外步骤以确保图为有向无环图。生成位置编码时，本文设计了一个自动选择 \(k\) 的算法，该算法基于谱隙分析自适应地确定低频和高频特征向量的最优数量。该算法基于对归一化特征值（特征向量有效频率的代理）的双侧阈值处理。超参数 \(\alpha\) 从 0.05 到10 的 9 个值中选取，并通过验证集使用贪婪方法进行优化。
评价指标方面，回归任务使用 RMSE，分类任务使用平衡准确率实现独立于类别不平衡的无偏估计，相应地使用平衡交叉熵损失进行训练。所有方法均使用 5 个随机种子进行实验并报告平均值，在训练过程中均使用早停策略。与两类基线方法进行对比：

算法类型	对比模型	设置
树模型	XGBoost、CatBoost	使用 Optuna 进行超参数优化
基于 Transformer 的方法	TabTransformer、SAINT 和 FT-Transformer	在比较有无PE的版本时，保持批次大小、训练轮数、学习率、特征标记化输出维度等超参数固定

图估计方法分析

为评估不同图估计方法对下游性能的影响，在 50 个数据集上使用 FT-Transformer 作为骨干，比较了五种代表性方法。结果可见基于关联的方法在两项任务上持续优于基于因果的方法，斯皮尔曼相关取得了最高的平均提升，紧随其后的是皮尔逊相关。斯皮尔曼表现出最一致的正向增益，性能下降的情况最少。相比之下，因果发现方法 NOTEARS 和 LiNGAM 表现出相对较弱的性能提升。基于树结构依赖图的 Chow-Liu 算法在分类任务上表现不佳。在图估计和位置编码创建所需的平均额外计算时间方面，引入的计算开销很小，例如斯皮尔曼图平均仅增加 0.79 分钟。
搜狗高速浏览器截图20260415191523
为了更好地理解为何基于关联的方法优于基于因果的方法，通过图熵分析了结构特性。图熵衡量了边权重分布的均匀性，较高的熵表明图更均匀、连接更密集，而较低的熵表明图更稀疏、边权重高度集中。下图揭示了图熵与下游性能之间的清晰模式，在所有测试的数据集中，因果方法（NOTEARS 和 LiNGAM）集中在低图熵区域，产生稀疏、高度受限的图。斯皮尔曼和皮尔逊相关则产生高熵的图，更密集的结构与最强的性能增益相关联，表明当位置编码源自密集的特征依赖而非稀疏的因果结构时，能提供更有用的信息。

分类与回归性能对比

选择斯皮尔曼方法作为将位置编码集成到 Transformer 架构中的最佳方法。只对包含多个类别变量的数据集使用 TabTransformer，因为其架构仅对类别变量应用嵌入（从而应用 PE），连续变量则完全绕过嵌入层。实验结果如下所示，可见 Tab-PET 改进了多种 Transformer 架构和任务上的性能。在平均排名方面，Tab-PET 方法取得了最佳的整体性能，在分类和回归任务上均超越了梯度提升树和基线 Transformer。Tab-PET 版本的 FT-Transformer 和 SAINT 在整体排名中位列前两位。
搜狗高速浏览器截图20260415191920

与可学习位置编码的对比

研究中的一个关键问题是：从表格数据固有结构中推导出的固定位置编码，是否优于根据数据输入自适应学习的可学习位置编码。为了探索表格领域的这一问题，在所有分类和回归数据集上比较了可学习 PE 与 Tab-PET 生成的 PE 的性能提升。结果显示，Tab-PET 持续实现了比可学习方案更高的平均提升。表明对于通常数据量较小的表格数据集，像 Tab-PET 那样结合图结构位置信息提供了显著优势。

真实数据集上的 PE 与有效秩

为了验证理论结果，在 15 个真实世界表格数据集上进行了实验，测量了特征的有效秩，比较了三种条件：无 PE 的基线 (\(\alpha=0\))、使用图衍生 PE 的 Tab-PET、具有相同维度和统计特性的随机 PE。使用具有单层和单注意力头的 FT-Transformer 架构，以隔离 PE 对有效秩的影响。对于每种 PE 类型改变缩放参数 \(\alpha \in \{1, 2, 3, ..., 30\}\)，并计算 CLS 令牌嵌入在最终全连接层前的有效秩。
实验结果的发现与定理 1 和定理 2 高度一致，随着 \(\alpha\) 的增加，与基线相比 Tab-PET 和随机 PE 在所有 \(\alpha\) 值上都降低了有效秩，这证实了位置编码能使架构在需要时降低表示的复杂度。Tab-PET 的有效秩显著低于随机 PE，并且随着 \(\alpha\) 的初始增大差距扩大，之后再次收敛。有效秩的指数型衰减与理论结论相符。

优点和创新点

个人认为，本文有如下一些优点和创新点可供参考学习：

从有效秩降低的理论角度，论证了位置编码能够简化表格数据学习任务的内在维度，从而提升 Transformer 模型的泛化性能，为方法提供了理论支撑。
提出了 Tab-PET 框架，利用基于图论的方法（特别是基于关联的图）从本身无结构的表格数据中自动推导出位置编码，为表格 Transformer 引入了可学习、可解释的结构性归纳偏置。

查看全文

http://www.jsqmd.com/news/646341/