当前位置：首页 > news >正文

图网络实战指南：从Cora到Yelp，六大经典数据集深度解析与应用场景

news 2026/3/26 19:40:24

1. 初识图网络：为什么我们需要这些“经典”数据集？

如果你刚开始接触图神经网络，可能会被各种眼花缭乱的模型和代码搞得晕头转向。GCN、GAT、GraphSAGE... 模型一个比一个酷，但真正上手时，很多人卡在了第一步：数据。没有合适的数据，再厉害的模型也只是空中楼阁。这就好比你想学做菜，但连基本的食材都认不全，更别提做出美味佳肴了。

我刚开始研究图网络时，也在这个阶段徘徊了很久。后来我发现，与其盲目地找新数据，不如先把几个“祖师爷”级别的经典数据集吃透。这些数据集就像数学里的“1+1=2”，是构建你知识体系的基石。今天，我就带你一起盘一盘图网络领域最常被“翻牌子”的六大经典数据集：Cora、CiteSeer、PubMed、PPI、BlogCatalog和Yelp。它们分别来自学术论文、生物化学和商业社交等不同领域，几乎覆盖了图网络所有的主流任务。理解它们，你就能理解图网络到底在解决什么问题，以及如何为你的任务选择合适的数据。

更重要的是，这些数据集结构清晰、规模适中，非常适合新手练手和模型验证。很多顶会论文的 baseline 结果都是在它们身上跑出来的。可以说，搞懂了这六个数据集，你就拿到了进入图神经网络实战大门的钥匙。接下来，我们就一个个拆开来看，看看它们到底长什么样，以及我们能拿它们来做什么有趣的事情。

2. 学术界的“三剑客”：Cora、CiteSeer与PubMed深度拆解

这三个数据集可以说是图神经网络领域的“Hello World”，绝大多数入门教程和论文实验都离不开它们。它们都是引文网络，简单说，就是把学术论文当成图中的节点，论文之间的引用关系就是连接节点的边。我们的任务通常是：根据论文的内容（节点特征）和引用关系（图结构），预测一篇论文属于哪个研究领域（节点分类）。

2.1 Cora：小而精致的入门首选

Cora是我最早接触的数据集，也是我最推荐新手起步用的。它规模不大，但“五脏俱全”。

它是什么？一个包含2708篇机器学习论文的数据集。每篇论文被人工分到了7个类别之一，比如“神经网络”、“强化学习”、“概率方法”等。
特征怎么来的？这很有意思。研究者们先整理了一个包含1433个机器学习领域高频词的词典。然后，对于每一篇论文，他们检查这1433个词是否在论文中出现。如果出现了，对应位置就是1，没出现就是0。所以，每篇论文就变成了一个1433维的、只由0和1组成的二进制向量。这就是节点的特征。
图结构如何？论文之间的引用关系构成了边。整个网络有5429条引用边。关键点是，这个图是连通的，没有孤立的论文，这保证了信息可以在图中传递。
实战怎么用？最经典的任务就是半监督节点分类。我们故意“藏起”大部分论文的标签，只告诉模型一小部分（比如每类只给20篇）论文的类别，然后让它去预测所有其他论文的类别。这个过程能很好地测试模型能否利用少数标签和网络结构，学习到有效的节点表示。
我的踩坑经验：第一次用Cora时，我犯过一个错误：直接拿cora.cites文件里的边去构图。注意！这个文件里的每一行“A B”，表示论文A引用了论文B。在构图时，这通常意味着有一条从B指向A的边（因为A引用了B的知识）。但具体方向取决于你的任务定义，有些模型会忽略方向，当作无向图处理。一定要搞清楚你代码里边的方向定义，否则效果可能天差地别。

2.2 CiteSeer与PubMed：更大的挑战与不同的特征

搞定了Cora，就可以升级挑战CiteSeer和PubMed了。它们本质和Cora一样，但各有特点。

CiteSeer规模稍大，有3312篇计算机科学论文，分为6类。它的词表更大，有3703个唯一词，所以节点特征是3703维的二进制向量。它的图相对更稀疏一些，社区结构可能和Cora不同，这会让某些模型的性能在这里产生波动。我常把Cora和CiteSeer放在一起对比实验，看看模型的泛化能力。

PubMed则跨到了生物医学领域，它包含19717篇关于糖尿病的文献，规模是前两者的一个数量级。它最大的不同在于节点特征。PubMed不再使用简单的0/1表示词是否出现，而是采用了TF-IDF值。这是一种统计方法，用来衡量一个词对于一篇文档的重要性。因此，PubMed的节点特征是500维的浮点数向量，数值是连续的，包含更丰富的信息。处理这类特征时，你可能需要考虑是否需要做归一化。

为了方便你快速区分这三个“兄弟”数据集，我整理了一个对比表格：

特性	Cora	CiteSeer	PubMed
领域	机器学习	计算机科学	生物医学（糖尿病）
节点数	2,708	3,312	19,717
边数	5,429	4,732	44,338
类别数	7	6	3
特征维度	1,433	3,703	500
特征类型	二进制词袋（0/1）	二进制词袋（0/1）	TF-IDF 浮点向量
核心任务	节点分类	节点分类	节点分类
新手友好度	★★★★★	★★★★☆	★★★☆☆

实战建议：当你跑通一个模型在Cora上后，一定要试试在CiteSeer和PubMed上跑一下。观察准确率的变化，思考为什么：是因为图变大了？特征变稠密了？还是类别分布不同了？这个过程能极大地加深你对模型和数据耦合关系的理解。

3. 从学术到生命科学：PPI网络的复杂世界

如果说前面三个数据集是“干净整洁”的教科书例题，那么PPI（蛋白质相互作用网络）就是一道来自真实世界的综合应用题。它一下子把难度和趣味性都提升了不少。

它是什么？PPI网络中的每个节点是一个蛋白质，每条边表示两个蛋白质之间存在相互作用（比如它们会结合在一起来完成某项细胞功能）。这直接来自于生物学的真实研究，图结构反映了生命活动最底层的逻辑之一。
为什么它很特别？
1. 多图（Multi-graph）：PPI数据集不是一张大图，而是24张独立的子图，每张图对应不同的人体组织（比如血液、肝脏、肾脏）。这要求模型不仅能学习图内的信息，最好还能跨图学习到通用的蛋白质相互作用模式。
2. 多标签分类：每个蛋白质节点（共56944个）不再属于一个类别，而是可能有多个标签。标签总共有121种，对应不同的基因本体论功能。一个蛋白质可能同时具有“催化活性”、“绑定ATP”等多个功能标签。任务变成了多标签二元分类，你需要为每个节点输出一个121维的0/1向量。
3. 特征稀疏：节点特征是50维的，描述了蛋白质的序列、结构等信息。但特征非常稀疏，大部分是0，只有少量是1。这对特征提取是个考验。
实战挑战与技巧：处理PPI时，传统的全图训练方法（像在Cora上那样）可能不太适用，因为图太大，而且是由多个子图组成。我常用的方法是：
1. 采样（Sampling）：使用GraphSAGE这类模型的邻居采样策略，从大图中挖出一块块“子图”进行训练。
2. 小批量（Mini-batch）训练：将24张图看作24个独立的训练样本（或批次），进行小批量训练。这要求模型能处理不同大小和结构的图。
3. 损失函数：由于是多标签任务，损失函数通常从交叉熵换为二元交叉熵（BCE Loss），对每个标签进行独立的二元分类。
我第一次跑PPI时，被它的数据格式折腾得够呛。它提供了.json、.npy、.txt多种文件。你需要仔细阅读说明，用ppi-G.json构建图结构，用valid_feats.npy加载节点特征，用ppi-class_map.json解析多标签。虽然麻烦，但一旦搞定，你会对图数据的处理有质的飞跃。

4. 走进真实社交与商业场景：BlogCatalog与Yelp

最后这两个数据集，将我们从实验室带向了真实的互联网世界，它们的应用场景更贴近实际的用户产品。

4.1 BlogCatalog：社交网络上的用户分类

BlogCatalog是一个早期的社交网络数据集，节点是博客网站的用户，边代表用户之间的好友关系（社交链接）。

数据特点：它有10312个用户节点和超过33万条边，是一个比较稠密的社交图。用户的标签是其兴趣类别（如政治、音乐、旅游等），共有39个类别，同样也是多标签分类任务（一个用户可以有多个兴趣）。
应用场景：这其实就是社交网络上的用户画像。我们可以利用用户的好友关系（“物以类聚，人以群分”），来预测用户可能感兴趣的话题，从而用于内容推荐、社群发现等。与PPI相比，BlogCatalog的图是单一大图，且特征信息较少（原始数据只有节点ID），更多依赖图结构本身。在实践中，我们常常需要自己构造节点特征，比如用节点的度（好友数）或进行简单的嵌入作为初始特征。
实战思考：处理这种结构特征主导的图，图神经网络的消息传递机制能大显神威。你可以尝试对比：仅用图结构（没有人工构造特征）的模型效果 vs 加入简单特征的模型效果，感受结构信息的重要性。

4.2 Yelp：异质商业图网络的代表

Yelp数据集是我们今天介绍的六个里最“庞大”也最“复杂”的一个，它来自著名的商业点评网站Yelp。严格来说，它不是一个单一的、同质的图，而是一个包含多种节点和边的异质信息网络。

它包含什么？原始数据非常丰富，包括：
- 节点：商家（Business）、用户（User）、评论（Review）、图片（Photo）等。
- 边：用户给商家写评论、用户上传图片到评论、商家属于某个类别/城市等。
- 属性：商家有营业时间、地址、类别；评论有文本、星级、时间；用户有点评历史等。
如何构图？这才是关键。你可以根据任务构建不同的图。比如，想做商家推荐，可以构建“用户-商家”二分图，边是用户对商家的评分。想做商家类别分类，可以构建以商家为节点的同质图，边可以根据商家之间的距离、相似性（如拥有共同用户）来构造。
应用场景：Yelp数据集的可玩性极高，几乎可以模拟所有真实的商业分析任务：链接预测（预测用户是否会给某个商家写评论）、节点分类（预测商家的类别，如“中餐”或“酒吧”）、图表示学习（学习商家或用户的低维嵌入，用于下游推荐）等。
处理挑战：处理Yelp这样的原始数据，你需要很强的数据清洗和构图能力。这比使用现成的、干净的Cora数据要困难得多，但也更有价值，因为真实世界的数据就是如此杂乱。你需要从JSON或CSV文件中提取实体和关系，自己用NetworkX或DGL/PyG来构建图对象。这个过程虽然繁琐，但却是从“玩具数据集”迈向“工业级应用”的必经之路。

5. 实战指南：如何为你的任务选择与预处理数据？

了解了这些数据集的特点后，最关键的一步是如何让它们为你所用。选择哪个数据集，完全取决于你想解决什么问题。

如果你想学习/验证图神经网络基础模型（如GCN, GAT），毫不犹豫地从Cora开始。它简单、稳定、社区支持好，几乎所有框架都有现成的加载代码。快速验证你的模型是否能够正常跑通并达到一个基准性能。

如果你想挑战更复杂的任务，比如多标签学习或大规模图训练，那么PPI和BlogCatalog是绝佳的跳板。它们能逼你学会处理多标签损失、子图采样和小批量训练这些实用技巧。

如果你的兴趣在推荐系统、商业分析等应用层面，Yelp是你的宝藏。尽管预处理麻烦，但它能给你带来最接近实战的体验。你可以从构建一个简单的“用户-商家”二分图开始，尝试用GraphSAGE学习用户嵌入，再做简单的推荐。

数据预处理的通用流程：

读取数据：通常需要从.content、.cites、.json等特定格式文件中读取节点特征、边信息和标签。
构建图对象：使用深度学习框架（如PyTorch Geometric或Deep Graph Library）的Data或Graph类来构建图。关键是指定x（节点特征矩阵）、edge_index（边索引，形状为[2, num_edges]）和y（节点标签）。
数据划分：这是非常重要的一步！对于Cora这类图，常用的是固定划分，即每个类别取固定数量的节点作为训练集、验证集和测试集。对于PPI，数据本身已经分好了24张图，可以按图划分。对于Yelp这类，可能需要按时间划分（用历史数据训练，预测未来）。
特征工程（可选）：对于像BlogCatalog这样缺乏特征的数据，可以计算节点的度、进行图嵌入（如Node2Vec）作为初始特征。对于Yelp，则需要从文本、类别中提取特征。
归一化：如果特征像PubMed那样是连续的TF-IDF值，考虑进行行归一化或标准归一化，有助于模型训练稳定。

6. 超越数据集：理解场景才能用好模型

最后，我想分享一点比技术细节更重要的心得：理解数据背后的场景，比跑出一个高分数更有价值。

Cora、CiteSeer、PubMed告诉我们，在引文网络中，一篇论文的类别不仅取决于它的内容，还取决于它引用了谁、被谁引用。这体现了同质性假设——相连的节点倾向于相似。所以GCN这类模型在这里效果很好。

但在社交网络（如BlogCatalog）或电商网络（如Yelp的用户-商品图）中，情况可能更复杂。社交网络既存在同质性（朋友兴趣相似），也存在异质性（你可能关注一个完全不同领域的专家）。而在推荐系统中，用户和商品是两类完全不同的节点，这要求模型能处理异质图。

PPI网络则揭示了生物系统的模块化特性，蛋白质功能团内部连接紧密。这启发我们设计能捕捉社区结构的模型。

所以，当你拿到一个新问题时，先别急着套模型。问问自己：我的图数据符合什么假设？节点和边代表了什么物理意义？我的任务目标是什么？想清楚这些，你才能从这六大经典数据集的“练兵场”中汲取真正的营养，灵活地将图神经网络应用到更广阔的领域。记住，数据是故事的载体，模型是讲故事的技巧，而你要做的，是成为一个读懂故事并用新技巧讲出更精彩故事的人。

查看全文

http://www.jsqmd.com/news/433860/