当前位置：首页 > news >正文

别再只盯着CNN了！用PyTorch Geometric从零搭建GCN，实战Cora文献分类（附完整代码）

news 2026/4/15 23:36:41

图神经网络实战：用PyTorch Geometric构建GCN实现Cora文献分类

在深度学习领域，图神经网络(GNN)正成为处理非欧几里得数据的利器。与传统的CNN和RNN不同，GNN专门设计用于处理图结构数据，能够有效捕捉节点间的复杂关系。本文将带您从零开始，使用PyTorch Geometric库实现一个图卷积网络(GCN)，并在经典的Cora文献分类数据集上进行实战。

1. 环境准备与工具选择

工欲善其事，必先利其器。在开始构建GCN之前，我们需要配置好开发环境。PyTorch Geometric(PyG)是专门为图神经网络开发的一个PyTorch扩展库，它提供了大量预实现的图神经网络层和常用图数据集，极大简化了图神经网络的开发流程。

安装PyTorch Geometric的注意事项：

确保已安装合适版本的PyTorch
PyG需要额外安装几个依赖库：
- torch-scatter
- torch-sparse
- torch-cluster
- torch-spline-conv

# 示例安装命令（需根据您的PyTorch版本调整） pip install torch-scatter torch-sparse torch-cluster torch-spline-conv -f https://data.pyg.org/whl/torch-1.10.0+cu113.html pip install torch-geometric

提示：PyG的安装可能因系统和PyTorch版本而异，建议参考官方文档获取最新安装指南。

2. 理解Cora数据集

Cora是一个经典的文献引用网络数据集，常用于节点分类任务的基准测试。它包含2708篇机器学习论文，分为7个类别：

基于案例的推理
遗传算法
神经网络
概率方法
强化学习
规则学习
理论

每篇论文用一个1433维的词向量表示，这些词向量是通过对论文摘要进行词频统计得到的。论文间的引用关系构成了图的边，整个网络共有5429条边。

from torch_geometric.datasets import Planetoid dataset = Planetoid(root='/tmp/Cora', name='Cora') data = dataset[0] print(f'节点数量: {data.num_nodes}') print(f'边数量: {data.num_edges}') print(f'节点特征维度: {dataset.num_features}') print(f'类别数量: {dataset.num_classes}') print(f'训练集节点数: {data.train_mask.sum().item()}')

3. 构建GCN模型

图卷积网络(GCN)的核心思想是通过聚合节点自身及其邻居的特征来生成新的节点表示。与传统的CNN不同，GCN的"卷积"操作是在图结构上进行的。

我们的GCN模型将包含两个图卷积层：

第一层将1433维的节点特征映射到16维的隐藏空间
第二层将16维特征映射到7维的输出空间（对应7个类别）

import torch import torch.nn.functional as F from torch_geometric.nn import GCNConv class GCN(torch.nn.Module): def __init__(self, num_features, num_classes): super(GCN, self).__init__() self.conv1 = GCNConv(num_features, 16) self.conv2 = GCNConv(16, num_classes) def forward(self, x, edge_index): x = self.conv1(x, edge_index) x = F.relu(x) x = F.dropout(x, training=self.training) x = self.conv2(x, edge_index) return F.log_softmax(x, dim=1)

4. 模型训练与评估

训练图神经网络与训练传统神经网络类似，但有一些关键区别需要注意：

我们只使用有标签的节点计算损失（半监督学习）
图结构信息通过edge_index传递给模型
验证和测试时同样只评估相应mask下的节点

device = torch.device('cuda' if torch.cuda.is_available() else 'cpu') model = GCN(dataset.num_features, dataset.num_classes).to(device) data = data.to(device) optimizer = torch.optim.Adam(model.parameters(), lr=0.01, weight_decay=5e-4) def train(): model.train() optimizer.zero_grad() out = model(data.x, data.edge_index) loss = F.nll_loss(out[data.train_mask], data.y[data.train_mask]) loss.backward() optimizer.step() return loss.item() def test(): model.eval() out = model(data.x, data.edge_index) pred = out.argmax(dim=1) correct = pred[data.test_mask] == data.y[data.test_mask] acc = int(correct.sum()) / int(data.test_mask.sum()) return acc for epoch in range(1, 201): loss = train() if epoch % 20 == 0: acc = test() print(f'Epoch: {epoch:03d}, Loss: {loss:.4f}, Test Acc: {acc:.4f}')

5. 结果分析与对比

经过200个epoch的训练，我们的GCN模型在Cora测试集上可以达到约81%的准确率。这与传统MLP模型约59%的准确率相比，有了显著提升。

为什么GCN表现更好？关键在于它利用了图结构信息：

特征传播：通过图卷积，节点的特征可以传播到其邻居节点
关系建模：显式地建模了论文间的引用关系
半监督学习：即使只有少量标签，也能通过图结构传播信息

为了更直观地理解GCN的工作原理，我们可以将最后一层卷积输出的2维特征可视化：

import matplotlib.pyplot as plt from sklearn.manifold import TSNE def visualize(h, color): z = TSNE(n_components=2).fit_transform(h.detach().cpu().numpy()) plt.figure(figsize=(10,10)) plt.xticks([]) plt.yticks([]) plt.scatter(z[:, 0], z[:, 1], s=70, c=color, cmap="Set2") plt.show() model.eval() out = model(data.x, data.edge_index) visualize(out, color=data.y.cpu())

从可视化结果可以看出，GCN学习到的表示能够很好地将不同类别的论文分开，这正是它分类性能优越的原因。

6. 进阶技巧与优化建议

在实际应用中，我们可以通过以下方法进一步提升GCN的性能：

添加更多卷积层：虽然深层GCN可能面临过平滑问题，但2-3层通常效果更好
使用残差连接：帮助缓解深度GCN中的梯度消失问题
调整dropout率：防止过拟合，通常0.5左右效果不错
特征归一化：对输入特征进行归一化可以加速训练
使用更先进的GNN架构：如GAT、GraphSAGE等

class ImprovedGCN(torch.nn.Module): def __init__(self, num_features, num_classes): super(ImprovedGCN, self).__init__() self.conv1 = GCNConv(num_features, 16) self.conv2 = GCNConv(16, 16) # 额外添加的隐藏层 self.conv3 = GCNConv(16, num_classes) def forward(self, x, edge_index): x1 = self.conv1(x, edge_index) x1 = F.relu(x1) x1 = F.dropout(x1, p=0.5, training=self.training) x2 = self.conv2(x1, edge_index) x2 = F.relu(x2 + x1) # 残差连接 x2 = F.dropout(x2, p=0.5, training=self.training) out = self.conv3(x2, edge_index) return F.log_softmax(out, dim=1)