当前位置：首页 > news >正文

CAL | KDD 2022 | 《Causal Attention for Interpretable and Generalizable Graph Classification》

news 2026/7/8 21:10:17

1.摘要

　　在图分类中，以基于注意力和池化的图神经网络（GNNs）为优势，从输入图中提取关键特征并支持预测。他们大多遵循“学习参加”的范式，这最大限度地提高了参加图和地面真实标签之间的互信息。然而，这种范式使得GNN分类器不顾后果地吸收了训练数据中输入特征和标签之间的所有统计相关性，而没有鉴别性特征的因果效应和非因果效应。被参与的图不是强调因果特征，而是倾向于访问非因果特征作为预测的捷径。这些快捷特征很容易在训练分布之外发生变化，从而使GNN分类器的泛化性较差。

　　在这项工作中，我们采取了一个为图分类的GNN建模的因果关系。在我们的因果假设中，快捷特征作为因果特征和预测之间的混杂因素，它欺骗分类器学习虚假的相关性，这有助于在分布内（ID）测试评估中的预测，同时导致分布外（OOD）测试数据的性能下降。为了使分类器具有更好的解释和泛化能力，我们提出了因果注意学习（CAL）策略，该策略发现了因果模式，减轻了捷径的混淆效应。具体来说，我们使用注意模块来估计输入图的因果特征和快捷特征。然后，我们参数化因果理论的后门调整-结合每个因果特征与各种快捷特征。它鼓励了因果估计和预测之间的稳定关系，而不管快捷部分和分布的变化。在合成和真实数据集上的大量实验证明了CAL的有效性。

2.介绍

　　本文提出了因果注意学习（CAL）策略——最大化参与图对预测标签的因果效应，同时减少快捷特征的混杂效应。具体来说，我们首先应用注意模块从输入图中生成因果特征和快捷特征的估计。然后，我们在因果理论[26,27]中参数化后门调整，它将每个因果估计与各种快捷估计结合起来，并鼓励这些组合来保持一个稳定的预测。它鼓励了因果模式和预测之间的不变关系，而不考虑捷径部分的变化和分布的变化。我们将CAL应用于各种GNN架构中进行图分类。在大量的合成和真实数据集上的实验结果表明，CAL有更好的泛化和深刻的解释。

　　贡献：

- 我们强调了当前在图分类中基于注意力和池化的GNN的泛化问题。从因果关系的角度来看，我们将这种问题归因于快捷方式特征的混淆效应。
- 我们提出了一种新的因果注意学习（CAL）策略的图形分类。它使得GNN在过滤掉快捷模式的同时利用了因果特征。
- 在合成和真实数据集上的大量实验证明了CAL的有效性。更深入的分析和可视化显示了CAL的可解释性和合理性。

3.方法

3.1 图分类结构因果模型

　　Explanations for SCM：

　　因果路径：G→C→R→Y

　　后门路径：C→G←S→R→Y

　　假设

　　目的：保护 GNN 免受混杂因素 $S$ 的影响是利用因果特征的关键。应该通过消除后门路径来实现图表示学习，而不是建模 Figure 1 中混淆的 $P(Y|C)$。

　　通过 $P_{m}(Y \mid C)=P(Y \mid d o(C))$ 截断后门路径；

4.方法

4.1 模型框架

　　因果特征分离

　　　　$\begin{array}{l}\mathbf{H}=f(\mathbf{A}, \mathbf{X})\\\alpha_{c_{i}}, \alpha_{t_{i}}=\sigma\left(\operatorname{MLP}_{\text {node }}\left(\mathbf{h}_{i}\right)\right), \\\beta_{c_{i j}}, \beta_{t_{i j}}=\sigma\left(\operatorname{MLP}_{\text {edge }}\left(\mathbf{h}_{i} \| \mathbf{h}_{j}\right)\right),\end{array}$

　　得到因果图和非因果图：

　　　　$\mathcal{G}_{c}=\left\{\mathrm{A} \odot \mathbf{M}_{a}, \mathbf{X} \odot \mathbf{M}_{x}\right\}$ and $\mathcal{G}_{t}=\left\{\mathrm{A} \odot \overline{\mathbf{M}}_{a}, \mathbf{X} \odot \overline{\mathbf{M}}_{x}\right\}$

　　解纠缠

　　　　$\begin{array}{l}\mathbf{h}_{\mathcal{G}_{c}}=f_{\text {readout }}\left(\operatorname{GConv}_{c}\left(\mathbf{A} \odot \mathbf{M}_{a}, \mathbf{X} \odot \mathbf{M}_{x}\right)\right), \quad \mathbf{z}_{\mathcal{G}_{c}}=\Phi_{c}\left(\mathbf{h}_{\mathcal{G}_{c}}\right) \\\mathbf{h}_{\mathcal{G}_{t}}=f_{\text {readout }}\left(\mathrm{GConv}_{t}\left(\mathbf{A} \odot \overline{\mathbf{M}}_{a}, \mathbf{X} \odot \overline{\mathbf{M}}_{x}\right)\right), \quad \mathbf{z}_{\mathcal{G}_{t}}=\Phi_{t}\left(\mathbf{h}_{\mathcal{G}_{t}}\right) .\end{array}$

　　因果相关性学习

　　　　$\mathcal{L}_{\text {sup }}=-\frac{1}{|\mathcal{D}|} \sum_{\mathcal{G} \in \mathcal{D}} \mathbf{y}_{\mathcal{G}}^{\top} \log \left(\mathbf{z}_{\mathcal{G}_{c}}\right)$

　　非因果相关性学习

　　　　$\mathcal{L}_{\text {unif }}=\frac{1}{|\mathcal{D}|} \sum_{\mathcal{G} \in \mathcal{D}} \mathrm{KL}\left(\mathbf{y}_{\text {unif }}, \mathbf{z}_{\mathcal{G}_{t}}\right)$

　　因果干预

　　缓解混杂效应的一个有希望的解决方案是后门调整，即对混杂因素进行分层，并将目标因果参与图与每个平凡参与图的分层配对，以组成“干预图”。但是，由于图数据的不规则，不可能在数据级进行干预，例如改变图的琐碎部分来生成反事实的图数据。为此，我们在表征层面上进行隐式干预，并提出以下在后门调整指导下的损失：

　　　　$\mathbf{z}_{\mathcal{G}^{\prime}}=\Phi\left(\mathbf{h}_{\mathcal{G}_{c}}+\mathbf{h}_{\mathcal{G}_{t^{\prime}}}\right)$

　　　　$\mathcal{L}_{\text {caus }}=-\frac{1}{|\mathcal{D}| \cdot|\hat{\mathcal{T}}|} \sum_{\mathcal{G} \in \mathcal{D}} \sum_{t^{\prime} \in \hat{\mathcal{T}}} \mathbf{y}_{\mathcal{G}}^{\top} \log \left(\mathrm{z}_{\mathcal{G}^{\prime}}\right)$

　　由于具有共同的因果特征，它推动这种干预图的预测在不同的分层中是不变的和稳定的。

　　训练目标

　　　　$\mathcal{L}=\mathcal{L}_{\text {sup }}+\lambda_{1} \mathcal{L}_{\text {unif }}+\lambda_{2} \mathcal{L}_{\text {caus }}$

5.实验

RQ1: How effective is the proposed CAL in alleviating the outof-distribution (OOD) issue?
RQ2: Can the proposed CAL achieve performance improvements on real-world datasets?
RQ3: For the different components in CAL, what are their roles and impacts on performance?
RQ4: Does CAL capture the causal attended-graphs with significant patterns and insightful interpretations?

5.1 Baselines

Attention-based methods: GAT [35], GATv2 [4], SuperGAT [16], GlobalAttention [22], AGNN [33].
Pooling-based methods: SortPool [49], DiffPool [45], Top-𝑘 Pool [10], SAGPool [19].
Kernel-based methods: Graphlet kernel (GK) [31], Weisfeiler Lehman Kernel (WL) [30],
Deep Graph kernels (DGK) [42]. • GNN-based methods: GCN [17], GIN [41]

5.2 Performance on Synthetic Graphs (RQ1)

Obs 1：在不考虑因果关系的情况下细化鉴别特征会导致OOD泛化较差；

Obs 2: ID 性能较好的GNN 的OOD泛化效果往往较差；

Obs 3：减轻混杂因素可以在OOD数据集上获得更稳定的性能；

5.3 Performance on Real-world Graphs (RQ2)

Obs4：OOD问题在现实世界的数据集中广泛存在；

5.4 Ablation Study (RQ3)

Node Attention v.s. Edge Attention.
Random Combination
Loss coefficients $\lambda_{1}$ and $\lambda_{2}$

结论：1、更好的 ID 性能，OOD性能就越差；2、不考虑因果特征的模型，性能也差；3、消除混杂因素，性能更稳定；4、OOD 广泛存在于真实生活；5、对比于边，节点包含了更多的有效信息，当然两者结合起来更好；

6.总结

在这项工作中，我们从因果的角度重新审视图分类的GNN建模。我们发现，当前的GNN学习策略倾向于利用快捷特征来支持他们的预测。然而，快捷方式功能实际上起到了混杂的作用。它在因果特征和预测之间建立了一个后门路径，从而误导gnn来学习虚假的相关性。为了减轻混杂效应，我们提出了针对gnn的因果注意学习（CAL）策略。CAL是由因果理论中的后门调整所指导的。它鼓励gnn利用因果特征，而忽略了快捷部分。大量的实验结果和分析验证了其有效性。未来的研究包括采用强大的解纠缠方法和更先进的因果干预策略来提高CAL。我们还将努力将CAL应用于其他图形学习任务，如节点分类或链接预测

查看全文

http://www.jsqmd.com/news/432310/