当前位置：首页 > news >正文

论文解读-《Community-Invariant Graph Contrastive Learning》 - zhang

news 2026/3/28 7:52:00

1. 论文介绍

论文题目：Community-Invariant Graph Contrastive Learning
论文领域：图对比学习
论文发表：ICML-2021
论文地址：https://arxiv.org/abs/2405.01350
论文代码：https://github.com/ShiyinTan/CI-GCL
论文背景：

2. 论文摘要

近年来，图增强在图对比学习（GCL）中获得了极大关注，用于学习广义化的节点/图表示。然而，主流 GCL 方法往往偏好随机扰乱图进行扩展，这显示出有限的泛化，且不可避免地导致高层图信息（即图社区）的破坏。此外，当前基于知识的图增强方法只能聚焦于拓扑或节点特征，导致模型对各种噪声类型缺乏鲁棒性。为解决这些局限性，本研究探讨了图社区在图增强中的作用，并发现了其在可学习图扩展中的关键优势。基于观察，我们提出了一个社区不变的 GCL 框架，用于在可学习图增强过程中维持图社区结构。通过最大化谱变化，该框架统一了拓扑和特征增强的约束，增强了模型的稳健性。21 个基准数据集的实证证据展示了我们框架的独特优势。代码已发布在 Github

3. 相关介绍

图的社区结构分割可以分为多种类型

基于模块的方法
基于谱聚类的方法
基于概率的方法
基于深度学习算法的方法

图对比学习
一种无监督的图表示学习方法，通过最大化相似图结构/节点之间的表示相似性，同时最小化不相似图结构/节点之间的表示相似性来学习图的特征表示。

GCL 的主要目标是最大化两个增强视图之间节点表示的一致性，以捕获图不变性信息。在各种 GCL 变体中，有效的图增强被证明是实现成功的关键。早期研究几乎都采用随机图增强，例如随机删除边或掩码特征。研究人员还尝试将专业知识融入图增强的指导中。

GCL通过图增强训练编码器f()，以捕获原始图及其扰动图之间的最大互信息，t1(G) t2(G)为G的两个图增强分布。GCL的目标函数为

图对比学习PyGCL库的模块

augmentors 图增强相关组件
losses 对比损失函数
models 模型架构实现
eval 评估工具集

4. 核心算法

4.1 前置概念

核心思想：保留社区结构对于可学习的图增强至关重要，即扰动对输入图社区变化影响最小的约束数量的边或特征。

为了验证社区结构不变性的重要程度，本文设计了4种方法
（1）具有均匀边删除的AD-GCL
（2）具有均匀边删除的GraphCL
（3）GraphCL+cluster增强，以更高的概率移除不同簇之间的边
（4）GraphCL+Destroy增强，以更高的概率移除同一簇内部的边

4.2 核心算法Cl-GCL 的框架图

包含两个核心组件：
（1）可学习的图增强优化Tm(G)，以破坏冗余信息，同时确保和原始图的社区的不变性
（2）GNN编码器f和读出层r通过对比损失最大化两个增强图之间的互信息，使用边丢弃和特征掩码来作为增强的具体实现方式

4.3 社区结构不变性的图增强

（1）拓扑结构增强
对于通过边增强采样得到的增强图可以表示为

上面的公式不能直接用于可学习的图增强，因为伯努利采样是不可微分的。
可以使用Gumbel-softmax将其从离散伯努利分布空间平滑到连续空间。

其中P表示控制是否翻转边Aij， MLPs是多层感知机，ei是第i个节点表示。
节点删除可以表示为

基于社区结构不变性的拓扑增强
根据矩阵扰动理论，

其中第K个谱变化也会受限制于谱空间的第i个节点的嵌入

最大化谱变化等同于最大化其上界，即翻转谱空间中距离最大的节点之间的多条边。

而根据已有的文献：距离较大的节点表示总是属于不同的社区。所以最小化谱变化等同于最小化其下界，即同个社区。
可以通过联合优化边删除和边添加来制定边扰动的CI约束。

其中节点删除也可以看作是另一种的ED（Edge drop）类型，可以通过社区不变性进行约束。

（2）特征增强
类似于拓扑结构增强的方式，可以采样特征掩码矩阵来实现t2，表示是否掩码相应特征。
通过特征掩码采样增强的图可以表示为

其中X是特征矩阵，是一个缺乏谱分解的分对称矩阵。辨别哪个特征对社区结构的影响最小的衡量具有挑战性。这里使用二部图共聚类（co-clustering of bipartite graph）的启发，该方法可以确定特征对节点聚类的重要性。构建特征二部图

4.4 算法流程

CI-GCL的图对比学习框架的详细
（1）首先对邻接矩阵和特征二部矩阵进行谱分解，以获得节点和特征表示。
（2）将这些节点和特征作为拓扑和特征的增强的MLP输入，其中MLP的参数随机初始化
（3）进入对比学习迭代
通过拓扑增强和特征增强来采样两个增强图。输入到GCN编码器，输出两个节点特征，然后使用readout函数对节点进行聚合和转换。

4.5 优化

算法使用投影梯度下降联合优化，可以更新参数实现

5. 实验设置

基准编码器：GIN
对比方法为
经典的GCL方法：

MVGRL 最大化局部拉普拉斯矩阵与全局扩散矩阵之间的互信息。
InfoGraph 最大化图级表征与不同尺度子结构的表征之间的互信息。
GraphCL 通过随机图增强的对比学习，学习图数据的无监督表示。
JOAO， JOAO 以 GraphCL 作为基线模型，并在进行对比学习时自动选择增强。
具有可学习图增强的GCL方法：
SEGA，基于图信息瓶颈理论，探索一种保持输入图关键信息的锚视图，用于图对比学习。此外，基于结构信息理论，我们提出了一种实用实现方法，以实现这种锚视图用于图对比学习。
GCS，采用基于梯度的方法，利用对比训练的模型来保留图的语义内容。随后，通过为节点和边分配不同的丢弃概率来生成增强视图。
GCL-SPAN，开发频谱增强技术来指导拓扑增强。通过分别最大化最小化频谱变化来生成两个视图。概率矩阵预先计算，并作为 GCL 框架的另一个输入。我们通过添加 10 -折交叉验证来复现它，并报告平均准确率。
AD-GCL，旨在通过优化 GCL 中的对抗图增强策略和设计可训练的边丢弃图增强来避免在训练过程中捕获冗余信息。
AutoGCL方法：采用一组可学习的图视图生成器，具有节点丢弃和属性掩码功能，并采用联合训练策略以端到端的方式训练可学习的视图生成器、图编码器和分类器。我们通过移除特征扩展部分来复现此算法，以适应无监督设置。

定量评估：对图分类和图回归这两个常用场景进行评估，包含无监督学习，半监督学习和迁移学习。

无监督学习
使用TU数据集和OGB数据集。从实验数据可以看出CL-GCL在图分类实现了最高的平均准确率。