当前位置：首页 > news >正文

斯坦福CS224W图机器学习笔记：我用Python+PyG复现了课程里的Node Embeddings实验

news 2026/8/2 22:41:25

斯坦福CS224W图机器学习实战：用PyG实现Node Embeddings的完整指南

当理论遇上代码，总会有意想不到的火花。作为CS224W课程的实践者，我深刻体会到从PPT公式到可运行代码之间的距离——这不仅是语法的转换，更是思维方式的跨越。本文将带你用PyTorch Geometric（PyG）完整复现Node Embeddings实验，分享那些官方Colab里没写的环境配置细节、版本适配陷阱和可视化技巧。

1. 实验环境搭建：避开PyG的版本雷区

在开始Node Embeddings实验前，一个稳定的环境比算法本身更重要。PyG的版本兼容性问题堪称新手第一道门槛：

# 推荐使用虚拟环境隔离（实测兼容的组合） conda create -n cs224w_pyg python=3.8 conda activate cs224w_pyg pip install torch==1.10.0+cu113 -f https://download.pytorch.org/whl/torch_stable.html pip install torch-scatter torch-sparse torch-cluster torch-spline-conv -f https://data.pyg.org/whl/torch-1.10.0%2Bcu113.html pip install torch-geometric==2.0.3

常见踩坑点：

PyG 2.x与1.x的API不兼容（如DataLoader的接口变化）
torch-scatter等编译依赖需要与CUDA版本严格匹配
Colab默认环境可能缺少igraph等可视化依赖

提示：如果遇到RuntimeError: Expected all tensors to be on the same device，检查PyG数据对象是否与模型在同一设备上，使用.to(device)统一迁移。

2. 数据准备：处理课程中的Karate Club网络

课程使用的空手道俱乐部数据集虽小，却是理解图结构的绝佳样本。PyG已经内置该数据集，但需要额外处理节点特征：

from torch_geometric.datasets import KarateClub import networkx as nx dataset = KarateClub() data = dataset[0] # 获取唯一的图对象 # 转换为NetworkX格式便于可视化 G = nx.from_edgelist(data.edge_index.t().numpy()) pos = nx.spring_layout(G, seed=42)

关键数据结构对比：

PyG属性	说明	课程理论对应
`edge_index`	COO格式的边索引	邻接矩阵A
`x`	节点特征矩阵	特征向量X
`y`	节点标签	社区划分Y

3. 实现Node2Vec：从理论到PyG代码

课程中提到的Node2Vec算法，其核心是通过有偏随机游走生成节点序列。PyG已经内置实现，但理解其参数设置至关重要：

from torch_geometric.nn import Node2Vec model = Node2Vec( edge_index=data.edge_index, embedding_dim=128, walk_length=20, context_size=10, walks_per_node=10, p=1.0, # 返回参数 q=1.0, # 出入参数 num_negative_samples=1, sparse=True ).to(device) # 训练循环示例 optimizer = torch.optim.SparseAdam(model.parameters(), lr=0.01) def train(): model.train() total_loss = 0 for pos_rw, neg_rw in loader: optimizer.zero_grad() loss = model.loss(pos_rw.to(device), neg_rw.to(device)) loss.backward() optimizer.step() total_loss += loss.item() return total_loss / len(loader)

参数调优经验：

p和q控制游走策略：当p<1时倾向返回已访问节点，q<1时倾向探索新节点
小图（如Karate Club）需要增加walks_per_node到50-100次
使用SparseAdam优化器比常规Adam更节省显存

4. 可视化与效果验证：超越课程Demo的技巧

课程中的二维投影展示可能掩盖了嵌入质量，这里推荐几种更专业的评估方式：

t-SNE可视化增强版：

from sklearn.manifold import TSNE import matplotlib.pyplot as plt def plot_embeddings(embeddings, labels): tsne = TSNE(n_components=2, perplexity=5, random_state=42) emb_2d = tsne.fit_transform(embeddings.detach().cpu().numpy()) plt.figure(figsize=(10,8)) for i in range(dataset.num_classes): mask = (labels == i).numpy() plt.scatter(emb_2d[mask, 0], emb_2d[mask, 1], label=f'Class {i}', s=100) plt.legend() plt.title('Node2Vec Embeddings with TSNE') plt.show() # 获取完整嵌入矩阵 z = model(torch.arange(data.num_nodes, device=device)) plot_embeddings(z, data.y)

定量评估方案：

下游分类任务准确率（用少量标注数据训练简单分类器）
边预测AUC（隐藏部分边，用嵌入相似度预测）
社区发现模块度（对比真实社区结构）

在空手道俱乐部数据集上，一个训练良好的Node2Vec模型应该能达到：

节点分类准确率 > 85%
边预测AUC > 0.92
模块度Q值 > 0.4

5. 高级技巧：解决稀疏图的嵌入问题

当处理比Karate Club更复杂的图时，会遇到新的挑战：

处理孤立节点：

# 为孤立节点添加自环 if data.num_nodes > data.edge_index.max()+1: isolated_nodes = torch.tensor([i for i in range(data.num_nodes) if i not in data.edge_index]) self_loops = torch.stack([isolated_nodes, isolated_nodes], dim=0) data.edge_index = torch.cat([data.edge_index, self_loops], dim=1)

动态调整游走参数：

# 基于节点度数的自适应p,q参数 degrees = torch.bincount(data.edge_index[0]) median_degree = degrees.median() def get_p_q(node): deg = degrees[node] p = 1.0 if deg <= median_degree else 0.5 q = 1.0 if deg <= median_degree else 2.0 return p, q

6. 生产环境优化：从实验代码到可复用组件

将实验代码转化为可维护的工程实现，需要注意：

封装Node2Vec训练器：

class Node2VecTrainer: def __init__(self, edge_index, **kwargs): self.model = Node2Vec(edge_index, **kwargs) self.loader = self.model.loader(batch_size=128, shuffle=True) def train(self, epochs): for epoch in range(1, epochs + 1): loss = self._train_epoch() if epoch % 10 == 0: print(f'Epoch: {epoch:03d}, Loss: {loss:.4f}') def save(self, path): torch.save({ 'model_state': self.model.state_dict(), 'embedding': self.model() }, path)

性能优化技巧：