当前位置: 首页 > news >正文

论文解读-《Community-Invariant Graph Contrastive Learning》 - zhang

1. 论文介绍

论文题目:Community-Invariant Graph Contrastive Learning
论文领域:图对比学习
论文发表:ICML-2021
论文地址:https://arxiv.org/abs/2405.01350
论文代码:https://github.com/ShiyinTan/CI-GCL
论文背景:

gnngclCLGCL01

2. 论文摘要

近年来,图增强在图对比学习(GCL)中获得了极大关注,用于学习广义化的节点/图表示。然而,主流 GCL 方法往往偏好随机扰乱图进行扩展,这显示出有限的泛化,且不可避免地导致高层图信息(即图社区)的破坏。此外,当前基于知识的图增强方法只能聚焦于拓扑或节点特征,导致模型对各种噪声类型缺乏鲁棒性。为解决这些局限性,本研究探讨了图社区在图增强中的作用,并发现了其在可学习图扩展中的关键优势。基于观察,我们提出了一个社区不变的 GCL 框架,用于在可学习图增强过程中维持图社区结构。通过最大化谱变化,该框架统一了拓扑和特征增强的约束,增强了模型的稳健性。21 个基准数据集的实证证据展示了我们框架的独特优势。代码已发布在 Github

3. 相关介绍

图的社区结构分割可以分为多种类型

  • 基于模块的方法
  • 基于谱聚类的方法
  • 基于概率的方法
  • 基于深度学习算法的方法

图对比学习
一种无监督的图表示学习方法,通过最大化相似图结构/节点之间的表示相似性,同时最小化不相似图结构/节点之间的表示相似性来学习图的特征表示。

GCL 的主要目标是最大化两个增强视图之间节点表示的一致性,以捕获图不变性信息。在各种 GCL 变体中,有效的图增强被证明是实现成功的关键。早期研究几乎都采用随机图增强,例如随机删除边或掩码特征。研究人员还尝试将专业知识融入图增强的指导中。

GCL通过图增强训练编码器f(),以捕获原始图及其扰动图之间的最大互信息,t1(G) t2(G)为G的两个图增强分布。GCL的目标函数为

gnngclCLGCL02

图对比学习PyGCL库的模块

  • augmentors 图增强相关组件
  • losses 对比损失函数
  • models 模型架构实现
  • eval 评估工具集

4. 核心算法

4.1 前置概念

核心思想: 保留社区结构对于可学习的图增强至关重要,即扰动对输入图社区变化影响最小的约束数量的边或特征。

为了验证社区结构不变性的重要程度, 本文设计了4种方法
(1)具有均匀边删除的AD-GCL
(2)具有均匀边删除的GraphCL
(3)GraphCL+cluster增强,以更高的概率移除不同簇之间的边
(4)GraphCL+Destroy增强,以更高的概率移除同一簇内部的边

4.2 核心算法Cl-GCL 的框架图

包含两个核心组件:
(1)可学习的图增强优化Tm(G),以破坏冗余信息,同时确保和原始图的社区的不变性
(2)GNN编码器f和读出层r通过对比损失最大化两个增强图之间的互信息,使用边丢弃和特征掩码来作为增强的具体实现方式

gnngclCLGCL03

4.3 社区结构不变性的图增强

(1)拓扑结构增强
对于通过边增强采样得到的增强图可以表示为

gnngclCLGCL04

上面的公式不能直接用于可学习的图增强, 因为伯努利采样是不可微分的。
可以使用Gumbel-softmax将其从离散伯努利分布空间平滑到连续空间。

gnngclCLGCL05

其中P表示控制是否翻转边Aij, MLPs是多层感知机,ei是第i个节点表示。
节点删除可以表示为

gnngclCLGCL06

基于社区结构不变性的拓扑增强
根据矩阵扰动理论,

gnngclCLGCL07

其中第K个谱变化也会受限制于谱空间的第i个节点的嵌入

gnngclCLGCL08

最大化谱变化等同于最大化其上界,即翻转谱空间中距离最大的节点之间的多条边。

而根据已有的文献:距离较大的节点表示总是属于不同的社区。所以最小化谱变化等同于最小化其下界,即同个社区。
可以通过联合优化边删除和边添加来制定边扰动的CI约束。

gnngclCLGCL09

其中节点删除也可以看作是另一种的ED(Edge drop)类型,可以通过社区不变性进行约束。

gnngclCLGCL10

(2)特征增强
类似于拓扑结构增强的方式,可以采样特征掩码矩阵来实现t2,表示是否掩码相应特征。
通过特征掩码采样增强的图可以表示为

gnngclCLGCL11

其中X是特征矩阵,是一个缺乏谱分解的分对称矩阵。辨别哪个特征对社区结构的影响最小的衡量具有挑战性。这里使用二部图共聚类(co-clustering of bipartite graph)的启发,该方法可以确定特征对节点聚类的重要性。构建特征二部图

gnngclCLGCL12

4.4 算法流程

CI-GCL的图对比学习框架的详细
(1)首先对邻接矩阵和特征二部矩阵进行谱分解,以获得节点和特征表示。
(2)将这些节点和特征作为拓扑和特征的增强的MLP输入,其中MLP的参数随机初始化
(3)进入对比学习迭代
通过拓扑增强和特征增强来采样两个增强图。输入到GCN编码器,输出两个节点特征,然后使用readout函数对节点进行聚合和转换。

gnngclCLGCL13

4.5 优化

算法使用投影梯度下降联合优化,可以更新参数实现

gnngclCLGCL14

5. 实验设置

基准编码器:GIN
对比方法为
经典的GCL方法:

  • MVGRL 最大化局部拉普拉斯矩阵与全局扩散矩阵之间的互信息。
  • InfoGraph 最大化图级表征与不同尺度子结构的表征之间的互信息。
  • GraphCL  通过随机图增强的对比学习,学习图数据的无监督表示。
  • JOAO, JOAO 以 GraphCL 作为基线模型,并在进行对比学习时自动选择增强。
    具有可学习图增强的GCL方法:
  • SEGA,基于图信息瓶颈理论,探索一种保持输入图关键信息的锚视图,用于图对比学习。此外,基于结构信息理论,我们提出了一种实用实现方法,以实现这种锚视图用于图对比学习。
  • GCS,采用基于梯度的方法,利用对比训练的模型来保留图的语义内容。随后,通过为节点和边分配不同的丢弃概率来生成增强视图。
  • GCL-SPAN,开发频谱增强技术来指导拓扑增强。通过分别最大化最小化频谱变化来生成两个视图。概率矩阵预先计算,并作为 GCL 框架的另一个输入。我们通过添加 10 -折交叉验证来复现它,并报告平均准确率。
  • AD-GCL,旨在通过优化 GCL 中的对抗图增强策略和设计可训练的边丢弃图增强来避免在训练过程中捕获冗余信息。
  • AutoGCL方法:采用一组可学习的图视图生成器,具有节点丢弃和属性掩码功能,并采用联合训练策略以端到端的方式训练可学习的视图生成器、图编码器和分类器。我们通过移除特征扩展部分来复现此算法,以适应无监督设置。

定量评估:对图分类和图回归这两个常用场景进行评估,包含无监督学习,半监督学习和迁移学习。

无监督学习
使用TU数据集和OGB数据集。从实验数据可以看出CL-GCL在图分类实现了最高的平均准确率。

gnngclCLGCL15

图回归实验

gnngclCLGCL16

半监督学习
使用ResGCN作为分类器,使用CI-GCL和SEGA、AD-GCL相比,实现了最高的平均准确率

gnngclCLGCL17

迁移学习
为了展示泛化能力,我们对基线模型在预处理后的 ZINC-2M 或 PPI-306K 数据集(Hu 等人,2020b)上进行 100 个 epoch 的自监督预训练,然后在不同下游生化数据集上微调基线模型。

gnngclCLGCL18

定性评估
研究CL-GCL的鲁棒性,在对抗性设置下进行实验。遵循GraphCL,对输入图的拓扑A和特征X进行随机噪声攻击,抗动比例为{0.05, 0.30}。
同时,还针对社区结构保持的能力进行了研究。社区结构的变化被定义为:通过谱聚类对图进行增强前后节点社区标签变化的平均数。

6. 总结

本文提出一个可同时应用于拓扑和特征增强的统一约束,以确保社区不变性并为下游任务提供益处。为实现这一目标,我们寻找了能够最大化输入图拓扑和特征的谱变化的增强方案,同时也能最小化社区变化的方案。我们提出的社区不变性约束可以与各种图对比学习框架配合使用。

7. 个人感悟

核心创新点是:通过社区结构不变性,绑定图的拓扑特征这一个维度来进行增强,对应到特征增强。

http://www.jsqmd.com/news/317517/

相关文章:

  • 主流关系型数据库系统缺陷实证研究——OceanBase 校企联合研究
  • 【重磅】热门的深圳小红书广告代理排名
  • 2026无锡市英语雅思培训机构推荐,权威英语雅思课程学校排行榜
  • k8s-配置管理
  • 计算机毕业设计springboot高校实验室安全巡检系统 基于SpringBoot的高校实验室智能安防与巡查管理平台 SpringBoot框架下的高校实验室安全风险监控与巡检信息系统
  • H595单个和级联扩展开发-实战开发教程
  • 计算机毕业设计springboot高校实训教学评估管理系统 基于SpringBoot的高校实践教学质量监控与评价体系平台 SpringBoot框架下的高校实验实训过程管理与成效评估系统
  • 从SEO到GEO,理解AI搜索时代的底层逻辑革命
  • 一文看懂振镜扫描、焊接与熔覆,技术差异全解析!
  • 实战蓝图:从诊断到闭环的GEO五步法操作体系
  • 计算机毕业设计之jsp学习助力平台的设计与实现
  • mise 安装及使用指南
  • 2025春熙路成都火锅终极PK,谁是你的心头好?社区火锅/老火锅/特色美食/美食/火锅,成都火锅回头客多的找哪家
  • 2026年 展厅设计与搭建厂家推荐排行榜:涵盖陈列道具、文化墙、互动装置、标识标牌、艺术肌理墙的全案定制专家
  • 闲置盒马礼品卡别浪费!实用回收法让你临期也能快速处理
  • MEDLL算法多径参数估计详解
  • 汇聚全球平台及户外品牌:15000㎡天台跨境电商嘉年即将启幕
  • 2026年出国公证机构费用大揭秘,南昌九江靠谱之选在哪
  • 剖析南昌涉外公证服务,大成公证处专业靠谱值得选
  • 不错的中医师承院校有哪些,湖北中医药大学中医师承周末班实力强
  • 2026湖北中医药大学中医师承班口碑怎么样,费用与就业情况解读
  • 说说常州北奇机械科技有限公司,靠谱吗及性价比如何
  • 聚焦2026年1月国内新型压力容器制造企业排行,蒸汽锅炉/导热油锅炉/锅炉厂家,压力容器优质厂家排行
  • 掌握清障车技能,2026年这些品牌助你事半功倍,重载清障车/落地清障车/二手蓝牌平板拖车,清障车直销厂家哪个好
  • 2026深圳创业办公楼出租及企业孵化园区推荐
  • 无锡市英语雅思培训辅导机构推荐,2026权威出国雅思课程中心学校口碑排行榜
  • 5G工业智能网关品牌推荐,哪家更好用?
  • 2026年广东口碑好的三菱变频器授权代理商推荐,三菱变频器哪家性价比高
  • 【信息科学与工程学】信息科学领域 第十八篇 存储架构设计 12 存储迁移
  • 探讨2026年佳能石材机械市场口碑怎么样,佳能石材机械如何选择