当前位置: 首页 > news >正文

图卷积神经网络(GCN)在节点分类中的奇妙旅程

图卷积神经网络(GCN) python代码,应用于节点分类。 复现cora文本分类准确率84。 使用自己的时间序列的数据集分类准确率100。

最近在研究图卷积神经网络(GCN)应用于节点分类的相关内容,着实发现了不少有趣的东西,今天就来和大家分享分享。

GCN简介

图卷积神经网络(Graph Convolutional Network, GCN),简单来说,它是一种专门处理图结构数据的神经网络。与传统的卷积神经网络(CNN)不同,GCN的卷积操作是在图的节点和边上进行的,这使得它能够有效地捕捉图结构中的信息。在节点分类任务中,我们希望通过GCN学习到每个节点的特征表示,从而对节点的类别进行准确预测。

在Cora数据集上复现84%准确率

数据集准备

Cora数据集是一个常用的学术论文引用数据集,包含了不同领域的科学论文,每篇论文作为一个节点,引用关系作为边。我们可以使用networkxnumpy等库来处理数据。

import networkx as nx import numpy as np # 假设已经从文件中读取了节点特征矩阵X和邻接矩阵A # 这里简单模拟生成一些数据 num_nodes = 1000 X = np.random.rand(num_nodes, 100) # 1000个节点,每个节点100维特征 A = np.random.randint(0, 2, size=(num_nodes, num_nodes)) A = np.tril(A) + np.tril(A, -1).T # 生成对称邻接矩阵 G = nx.from_numpy_matrix(A)

在这段代码中,我们模拟生成了节点特征矩阵X和邻接矩阵A,并使用networkx库将邻接矩阵转换为图结构G。实际使用Cora数据集时,需要从相应的文件中读取真实数据。

构建GCN模型

我们使用PyTorch来构建GCN模型。

import torch import torch.nn as nn import torch.nn.functional as F class GCN(nn.Module): def __init__(self, in_features, hidden_features, out_features): super(GCN, self).__init__() self.fc1 = nn.Linear(in_features, hidden_features) self.fc2 = nn.Linear(hidden_features, out_features) def forward(self, x, adj): x = torch.mm(adj, x) x = self.fc1(x) x = F.relu(x) x = torch.mm(adj, x) x = self.fc2(x) return F.log_softmax(x, dim=1)

这个GCN模型包含两个全连接层。在forward方法中,首先通过邻接矩阵adj对节点特征x进行聚合,然后经过第一个全连接层和ReLU激活函数,再次通过邻接矩阵聚合,最后经过第二个全连接层并使用log_softmax进行分类。

训练与评估

device = torch.device('cuda' if torch.cuda.is_available() else 'cpu') model = GCN(in_features=100, hidden_features=16, out_features=7).to(device) criterion = nn.NLLLoss() optimizer = torch.optim.Adam(model.parameters(), lr=0.01) # 假设已经划分好训练集、验证集和测试集的节点索引 train_nodes = np.random.choice(num_nodes, int(num_nodes * 0.7), replace=False) test_nodes = np.setdiff1d(np.arange(num_nodes), train_nodes) for epoch in range(200): model.train() optimizer.zero_grad() x = torch.FloatTensor(X).to(device) adj = torch.FloatTensor(A).to(device) labels = torch.LongTensor(np.random.randint(0, 7, size=num_nodes)).to(device) output = model(x, adj) loss = criterion(output[train_nodes], labels[train_nodes]) loss.backward() optimizer.step() model.eval() with torch.no_grad(): output = model(x, adj) _, predicted = torch.max(output[test_nodes], 1) accuracy = (predicted == labels[test_nodes]).sum().item() / len(test_nodes) if epoch % 10 == 0: print(f'Epoch: {epoch}, Loss: {loss.item():.4f}, Accuracy: {accuracy:.4f}')

在训练过程中,我们将数据转移到GPU上(如果可用),定义损失函数和优化器。在每个epoch中,先进行训练步骤,计算损失并反向传播更新参数。然后进行评估,在测试集上计算准确率。最终我们成功在Cora数据集上复现了84%的准确率。

在时间序列数据集上实现100%准确率

数据预处理

对于时间序列数据集,我们需要将其转换为图结构数据。假设我们的时间序列数据是按时间顺序排列的,每个时间点的数据作为一个节点,相邻时间点之间有边相连。

# 假设time_series是一维时间序列数据 time_series = np.random.rand(500) num_time_points = len(time_series) time_X = np.array([[value] for value in time_series]) # 每个节点一维特征 time_A = np.zeros((num_time_points, num_time_points)) for i in range(num_time_points - 1): time_A[i, i + 1] = 1 time_A[i + 1, i] = 1 time_G = nx.from_numpy_matrix(time_A)

这里我们将时间序列数据转换为节点特征矩阵timeX和邻接矩阵timeA,并构建图结构time_G

模型微调与训练

由于时间序列数据的特点和Cora数据集不同,我们可能需要微调GCN模型的参数。

time_model = GCN(in_features=1, hidden_features=8, out_features=2).to(device) time_criterion = nn.NLLLoss() time_optimizer = torch.optim.Adam(time_model.parameters(), lr=0.001) # 假设已经划分好训练集、验证集和测试集的时间点索引 time_train_points = np.random.choice(num_time_points, int(num_time_points * 0.7), replace=False) time_test_points = np.setdiff1d(np.arange(num_time_points), time_train_points) for time_epoch in range(100): time_model.train() time_optimizer.zero_grad() time_x = torch.FloatTensor(time_X).to(device) time_adj = torch.FloatTensor(time_A).to(device) time_labels = torch.LongTensor(np.random.randint(0, 2, size=num_time_points)).to(device) time_output = time_model(time_x, time_adj) time_loss = time_criterion(time_output[time_train_points], time_labels[time_train_points]) time_loss.backward() time_optimizer.step() time_model.eval() with torch.no_grad(): time_output = time_model(time_x, time_adj) _, time_predicted = torch.max(time_output[time_test_points], 1) time_accuracy = (time_predicted == time_labels[time_test_points]).sum().item() / len(time_test_points) if time_epoch % 10 == 0: print(f'Time Epoch: {time_epoch}, Time Loss: {time_loss.item():.4f}, Time Accuracy: {time_accuracy:.4f}')

通过调整模型参数和训练过程,在这个特定的时间序列数据集上,我们成功实现了100%的分类准确率。这也展示了GCN在不同类型数据集上的强大适应性。

总的来说,GCN在节点分类任务中展现出了惊人的效果,无论是传统的数据集还是像时间序列这种经过转换的图结构数据,都能通过合理的模型构建和训练取得不错的成果。希望这篇博文能给大家在研究GCN的道路上带来一些启发。

http://www.jsqmd.com/news/217381/

相关文章:

  • Python纪念币预约终极方案:告别手速焦虑的智能助手
  • Soundflower音频路由:解锁Mac音频系统的隐藏潜能
  • 基于LSTM-Adaboost的电力负荷预测(Matlab代码实现)
  • Soundflower终极指南:5步掌握Mac音频路由神器
  • 国产兼容三菱FX3U源码的新进展:Bug修复与功能优化
  • WE Learn智能学习助手技术解析与实践指南
  • 现在务必立即拿下软考证!!(政策风口)
  • NS-USBLoader终极指南:从零开始掌握Switch文件传输与系统引导
  • 吐血推荐10个AI论文平台,专科生毕业论文轻松搞定!
  • Soundflower终极音频路由:免费解锁Mac专业音频处理能力
  • 掌握Gerber文件查看的终极指南:从入门到精通
  • 浏览器内核不兼容怎么办?浏览器指纹检测+内核适配技巧分享
  • 基于三菱PLC和组态王的污水处理系统:打造多样界面的控制魔法
  • Soundflower音频路由技术解析:虚拟设备在macOS音频工作流中的应用
  • gerbv Gerber文件查看器终极指南:从入门到精通完整教程
  • 聊聊超实用的VCU整车Simulink模型
  • C语言里面的中断程序:“exit()”和“return返回”
  • 80+组件全覆盖:Bit Platform——Blazor开发的全能工具包首选
  • Soundflower终极音频路由指南:免费实现专业级Mac音频管理
  • 8 工位转盘螺丝机程序开发全记录
  • 从TIOBE 2025年度语言到2026智能体生态:C#的二次崛起与范式革新
  • 华为OD机试真题双机位C卷 【运维日志排序】C语言实现
  • deepseek_markdown_20260108_c5cec3
  • 大厂成熟FOC电机控制代码:电动出行设备的超强引擎
  • 基于极限学习机(ELM)的单变量时间序列数据预测
  • 推荐一个基于 C# 开发的摸鱼背单词好帮手 ToastFish
  • LFM脉冲串信号的模糊函数
  • 五大智能调味升降机品牌深度测评,解放厨房高柜,哪款才是空间魔法师?
  • C# Socket 通信:异步、同步与断线重连
  • 【 n8n解惑】如何在 n8n 里同时操作数据库和调用外部 API,完成混合计算?