当前位置：首页 > news >正文

GraphScale：十亿级图机器学习分布式训练框架的设计与实践

news 2026/7/18 14:56:53

1. 项目概述：当图数据规模成为瓶颈

在推荐系统、社交网络分析、知识图谱构建这些领域，图数据是核心。我们处理的不是一张张独立的图片，而是由数十亿用户（节点）和数百亿关注、购买、互动关系（边）编织成的复杂网络。图机器学习的目标，就是让算法从这个网络中“学习”，为每个节点生成一个低维的向量表示（即嵌入），这个向量能捕捉节点在网络中的结构和语义信息。有了这些向量，我们就能轻松地做用户相似度计算、商品推荐、社区发现等等。

听起来很美好，对吧？但当你真正把经典的算法，比如 DeepWalk、LINE，或者更现代的图神经网络（GNN），扔到一个有十亿节点、千亿边的真实工业级图谱上时，麻烦就来了。最直观的问题是：内存根本装不下。一个拥有10亿节点的图，如果每个节点用128维的浮点数（fp32）向量表示，仅嵌入矩阵就需要约500 GB的内存。这远超单台服务器，甚至是一个小型GPU集群的显存容量。

于是，分布式训练成了必选项。但分布式带来了新的“魔鬼”：通信开销。传统的分布式数据并行（DDP）方法，简单粗暴地把数据和模型复制到每台机器上。在图学习中，这意味着每台机器都需要存储完整的、巨大的嵌入矩阵。在参数更新时，为了同步所有机器上的梯度，会产生海量的网络通信。我们的实验和业界共识都表明，在这种超大规模图训练中，通信时间常常占到总训练时间的70%以上，计算反而成了“配角”。更糟糕的是，由于图数据访问的高度随机性（采样邻居节点），远程获取节点特征（即嵌入向量）的延迟极高，形成了严重的IO瓶颈。

GraphScale就是在这个背景下诞生的。它不是提出一个新的机器学习算法，而是一个面向十亿级图数据的机器学习分布式训练框架。它的核心设计哲学非常明确：解耦与协同。通过将图拓扑（节点和边的连接关系）与节点特征（嵌入向量）的存储、计算、通信进行重新设计和深度优化，GraphScale 旨在彻底击破内存墙和通信墙，让超大规模图训练变得高效且可行。目前，它已经在处理日活用户数以亿计的平台中经受住了实战考验。

2. GraphScale 核心设计思路拆解

要理解 GraphScale 为何有效，我们需要先看看现有方案的痛点，然后看它是如何“对症下药”的。

2.1 传统分布式方案的瓶颈分析

当前主流的分布式图训练方案，大致可以分为两类，但各有各的“心病”。

第一类：参数服务器（Parameter Server, PS）架构。以 PyTorch BigGraph (PBG) 为代表。这种架构有一个中心化的参数服务器集群，专门存储巨大的嵌入矩阵。工作节点负责采样和计算，然后从PS拉取参数、推送梯度。听起来分工明确，但问题在于：

通信热点：PS很容易成为瓶颈，所有工作节点都与之通信，网络带宽和PS的负载压力巨大。
非极致并行：由于图数据被分区，一个批次的训练可能涉及多个分区，需要跨分区通信，这破坏了“令人尴尬的并行性”（embarrassingly parallel），导致资源利用率不足，计算节点经常空闲等待数据。
收敛慢：在我们的对比实验中，PBG 因为上述通信和同步开销，往往需要更多轮迭代才能达到相同的精度。

第二类：全镜像数据并行（如 PyTorch DDP）。这是深度学习领域最常用的分布式范式。每台机器都有完整的数据副本和模型副本，独立计算梯度，然后通过 All-Reduce 操作同步梯度。在图训练中，这意味着每台机器都要存下整个巨大的嵌入矩阵。

内存爆炸：这是最致命的问题。10亿节点的嵌入矩阵，在DDP下会被复制N份（N为机器数），对内存的需求是单机的N倍，完全不可行。
通信爆炸：All-Reduce 同步的是整个嵌入矩阵的梯度，通信量与参数量成正比。对于百GB级别的嵌入矩阵，每次迭代的通信量都是灾难性的。

2.2 GraphScale 的破局之道：存储与计算解耦

GraphScale 的设计灵感来源于一个关键观察：在图学习任务中，尤其是节点嵌入任务，对图的访问（采样）和对节点特征的访问（读/写嵌入向量）是两种完全不同模式的操作。

图拓扑访问：是随机的、细粒度的。比如 DeepWalk 随机游走，下一步跳到哪里是完全随机的。
节点特征访问：虽然由采样决定，但具有潜在的局部性。一个批次内采样到的节点，其嵌入向量会被集中读写。

基于此，GraphScale 提出了一个新颖的两层分布式架构：

存储层（Storage Actors）：这一层专门负责分布式存储节点嵌入矩阵。整个巨大的嵌入矩阵被均匀地划分成多个分片（Shard），每个分片由一个独立的“存储执行体”（Storage Actor）管理。Actor 是一种轻量级的并发计算模型，这里可以简单理解为一个负责特定数据块的服务进程。关键点在于，每个存储执行体只负责整个嵌入矩阵的一小部分。例如，10台机器，每台机器承载若干个 Actor，那么每个 Actor 可能只管理约1亿个节点的嵌入。这从根本上解决了单点内存不足的问题。
计算层（Compute Actors）：这一层专门负责执行图采样和神经网络计算。每个计算执行体（Compute Actor）负责处理一个训练批次（mini-batch）。它会根据算法（如随机游走）从图拓扑中采样出一批节点或边。

那么，计算层如何获取它需要的节点嵌入呢？这就是 GraphScale 的精妙之处。它没有采用 PS 架构中“计算节点向中心拉取”的模式，也不是 DDP 的“全量复制”模式，而是引入了基于查询的按需获取和异步更新机制。

通信模式：当一个计算执行体需要某个节点的嵌入向量时，它向存储层发起一个点查询（Point Query）。存储层根据节点ID路由到对应的存储执行体，获取向量后返回。这听起来似乎会产生大量的小数据包通信？确实，但 GraphScale 通过批量化（Batching）和通信-计算重叠技术极大地缓解了这个问题。计算执行体会将一批训练样本所需的所有节点ID预先收集起来，一次性向存储层请求，将大量细粒度查询合并为少量粗粒度请求，显著提升网络效率。
更新模式：计算执行体完成前向和反向传播，计算出梯度后，它同样以批量的方式，将梯度发送给对应的存储执行体。存储执行体在本地应用优化器（如SGD、Adam）来更新自己负责的那部分嵌入向量。这个过程是异步的，计算执行体在发出梯度后无需等待更新完成，就可以继续处理下一个批次。这种异步性极大地提升了计算资源的利用率。

这种解耦架构带来了几个核心优势：

内存可扩展：嵌入矩阵的大小不再受单机内存限制，只受整个集群总内存的限制，可以轻松扩展到百亿、千亿节点。
通信高效：通信量从同步整个矩阵（All-Reduce）减少为只同步当前批次实际用到的节点向量和梯度，通信量大幅下降。如图10所示，在 ogbn-products 数据集上，GraphScale 相比 DDP，在 DeepWalk 和 LINE 任务上的通信时间分别减少了 39% 和 25%。
资源利用率高：计算和存储分离，可以独立扩缩容。计算密集型的任务可以配置更多计算执行体，数据密集型的任务可以配置更多存储执行体，避免了 PBG 中因分区耦合导致的资源闲置。

3. 核心细节解析与实操要点

理解了宏观架构，我们深入到一些实现的关键细节，这些细节往往是框架能否高效运行的决定因素。

3.1 图分区策略与数据局部性利用

虽然 GraphScale 将拓扑和特征存储解耦，但这并不意味着图分区不重要。相反，一个良好的图分区策略能极大提升性能。GraphScale 可以与多种图分区算法协同工作，其目标是：尽可能让同一个计算批次内采样到的节点，其嵌入向量集中在尽可能少的存储分片上。

为什么？因为这能减少计算执行体需要通信的存储执行体数量，将多个点查询合并到更少的网络连接中，降低延迟。例如，使用 Metis 等工具进行基于社区的图分区，使得联系紧密的节点（很可能在同一个随机游走序列中被采样到）被分配到同一个分区。虽然这些节点的嵌入可能分布在不同的存储分片（因为存储分片是按节点ID范围划分的），但好的图分区能增加“节点社区”与“存储分片子集”的重叠度。

实操心得：在实际部署中，我们通常采用两级划分。第一级使用轻量级的哈希分区将节点映射到存储分片，保证存储负载均衡。第二级，在计算采样前，如果条件允许，会基于图拓扑结构对节点进行重排或聚类，使得采样器更倾向于产生“存储局部性”好的批次。这需要与业务逻辑结合，是一个值得调优的点。

3.2 通信优化：批处理、流水线与压缩

通信是分布式系统的生命线。GraphScale 在通信层做了大量优化：

请求批处理（Request Batching）：如前所述，计算执行体不会为每个节点ID发起一次网络请求。它会维护一个请求缓冲区，攒够一定数量（例如 1024 个）的节点ID后，一次性发送给存储层。存储层处理这个批量请求，一次性返回所有对应的嵌入向量。这能将网络小包的 overhead 降至最低。
梯度更新流水线（Gradient Update Pipeline）：计算执行体的工作流可以设计为流水线模式。当第 N 个批次的梯度正在发送给存储层时，第 N+1 个批次的前向传播可能已经在进行中，它所需的节点嵌入请求正在被处理。计算、通信、存储更新三者部分重叠，隐藏了通信延迟。图10中“计算”和“通信”时间的分解显示，GraphScale 成功地将两者更有效地重叠了起来。
梯度压缩（Gradient Compression）：对于超大模型，即使只传输一个批次的梯度，量也可能很大。GraphScale 可以无缝集成梯度压缩技术，如1-bit 量化或稀疏化。例如，只传输梯度中绝对值最大的前 k% 的值，或者将梯度量化到低精度。这能进一步减少通信量。论文中提到，这些技术与 GraphScale 是互补的，可以叠加使用以获得更大收益。

3.3 存储引擎与一致性模型

存储执行体并非简单的键值存储。它需要高效地支持：

高并发随机读取：应对大量计算执行体的嵌入查询。
高并发随机更新：应用来自不同计算执行体的梯度。
优化器状态管理：如 SGD with Momentum、Adam 等优化器需要维护额外的状态（如动量向量），这些状态也需要分布式存储和更新。

GraphScale 利用Ray作为其底层的分布式执行框架。Ray 的 Actor 模型天然适合封装这种有状态的存储服务。每个存储执行体可以内置一个高性能的内存哈希表（如 C++ std::unordered_map 或更优的自定义结构），或者连接到一个本地化的轻量级数据库（如 RocksDB），来管理其分片内的嵌入向量和优化器状态。

关于一致性，GraphScale 采用最终一致性模型。由于计算执行体异步发送梯度，不同执行体看到的节点嵌入版本可能略有滞后。但对于基于随机梯度的节点嵌入训练来说，这种延迟是完全可以接受的，甚至被证明有时能起到正则化效果，有助于泛化。这借鉴了 HOGWILD! 等异步 SGD 的思想，在精度损失极小的情况下换来了巨大的吞吐量提升。

注意事项：异步更新虽然快，但在某些对收敛曲线稳定性要求极高的场景下，可能需要谨慎评估。一种折衷方案是引入“延迟绑定”，即控制梯度延迟的阈值。GraphScale 的灵活架构允许实现更复杂的一致性协议，但这通常会以性能为代价。

4. 实操过程与核心环节实现

让我们通过一个具体的例子，来看看如何使用 GraphScale 框架来训练一个十亿级图的 DeepWalk 模型。这里会涉及一些伪代码和配置思路。

4.1 环境准备与集群搭建

假设我们有一个由 10 台机器组成的集群，每台机器有 48 个 CPU 核心和 700GB 内存。我们将使用 Ray 来管理集群。

启动 Ray 集群：在每台机器上启动 Ray 运行时。指定一台机器为头节点（Head Node），其余为工作节点。

# 在头节点上 ray start --head --port=6379 --redis-password='your_password' # 在工作节点上 ray start --address='<head_node_ip>:6379' --redis-password='your_password'

定义 GraphScale 配置：我们需要决定存储执行体和计算执行体的数量。一个经验法则是：
- 存储执行体数量：主要由嵌入矩阵的总大小和每个执行体可用内存决定。目标是将每个执行体承载的嵌入分片控制在合理大小（如 10-50 GB），以利于快速内存访问。对于 256 GB 的 fp16 嵌入矩阵，如果我们希望每个分片约 25.6 GB，那么就需要 10 个存储执行体。我们可以让每台机器运行 1-2 个存储执行体。
- 计算执行体数量：通常与可用的 CPU 核心数或期望的并发批次数量相关。可以设置为集群总核心数的一个比例（例如 80%）。这里我们可以创建约 400 个计算执行体（10台 * 48核 * 0.8 ≈ 384，取整为400）。
```
# config.yaml graph: name: "user_social_graph" num_nodes: 1000000000 # 10亿 num_edges: 92000000000 # 920亿 embedding: dim: 128 dtype: "float16" storage: num_actors: 10 sharding: "range" # 按节点ID范围分片 compute: num_actors: 400 batch_size: 512 training: algorithm: "deepwalk" walk_length: 10 window_size: 5 num_walks_per_node: 1 learning_rate: 0.01 optimizer: "sgd_with_momentum" momentum: 0.9
```

4.2 数据加载与分布式存储初始化

图数据通常以边列表（edge list）或邻接表（adjacency list）的形式存储在分布式文件系统（如 HDFS）或对象存储中。

初始化存储执行体：GraphScale 框架会启动指定数量的存储执行体。每个执行体根据配置的分片策略（如node_id % num_actors），知道自己负责哪些节点ID范围的嵌入向量。它们会在内存中初始化对应大小的张量（Tensor）。

# 伪代码：存储执行体初始化 class StorageActor: def __init__(self, shard_id, total_shards, embedding_dim): self.shard_id = shard_id self.range_start = (shard_id * TOTAL_NODES) // total_shards self.range_end = ((shard_id + 1) * TOTAL_NODES) // total_shards self.num_nodes_in_shard = self.range_end - self.range_start # 初始化嵌入矩阵分片和优化器状态 self.embeddings = torch.randn((self.num_nodes_in_shard, embedding_dim), dtype=torch.float16) self.momentum = torch.zeros_like(self.embeddings) def get_embeddings(self, node_ids): # 将全局node_id转换为本分片内的局部索引 local_indices = node_ids - self.range_start # 返回对应的嵌入向量 return self.embeddings[local_indices] def apply_gradients(self, node_ids, gradients): local_indices = node_ids - self.range_start # 应用SGD with Momentum self.momentum[local_indices] = 0.9 * self.momentum[local_indices] + gradients self.embeddings[local_indices] -= LEARNING_RATE * self.momentum[local_indices]

加载图拓扑：图拓扑结构（边列表）可以被加载到内存中，或者通过一个分布式图引擎（如分布式版的 CSR/CSC 格式）进行访问。为了高效采样，图数据通常会被分区并缓存到每个计算执行体本地，或者由一个共享的、只读的图服务提供。GraphScale 更倾向于后者，以保持架构清晰。

4.3 训练循环与执行体协作

训练主循环由驱动程序（Driver）或一个主计算执行体协调。

采样阶段：每个计算执行体从全局图中采样出一个批次的数据。对于 DeepWalk，就是生成一批随机游走序列。

# 伪代码：计算执行体采样 class ComputeActor: def sample_batch(self): # 从图中采样一批起始节点，进行随机游走 walks = deepwalk_sampler.sample(num_walks=BATCH_SIZE, walk_length=WALK_LEN) # 从游走序列中生成正样本对（中心词，上下文词） pairs = generate_skip_gram_pairs(walks, window_size=WINDOW_SIZE) return pairs # 例如，形状为 [batch_size*2] 的node_id列表

嵌入获取与计算阶段：计算执行体从采样到的节点对中，提取出所有需要查询的唯一节点ID，然后向存储层发起批量请求。

def train_step(self, node_pairs): unique_node_ids = torch.unique(node_pairs) # 批量获取嵌入向量 # 这里涉及路由：根据node_id决定向哪个StorageActor请求 embeddings_dict = {} for storage_actor in storage_actors: # 筛选出属于该actor分片的node_ids mask = (unique_node_ids >= storage_actor.range_start) & (unique_node_ids < storage_actor.range_end) shard_node_ids = unique_node_ids[mask] if len(shard_node_ids) > 0: emb = storage_actor.get_embeddings.remote(shard_node_ids) embeddings_dict[storage_actor] = (shard_node_ids, emb) # 等待所有远程调用完成，并组装完整的嵌入张量 # ... (使用ray.get异步获取结果) full_embeddings = assemble_embeddings(embeddings_dict, unique_node_ids) # 执行前向和反向传播（例如，Skip-Gram负采样损失） loss, gradients = skip_gram_loss(full_embeddings, node_pairs) # 将梯度按节点ID分片，异步发送回对应的存储执行体 for storage_actor, (shard_node_ids, _) in embeddings_dict.items(): shard_grads = gradients[get_corresponding_indices(shard_node_ids, unique_node_ids)] storage_actor.apply_gradients.remote(shard_node_ids, shard_grads) # 异步调用，不等待 return loss

异步更新：apply_gradients.remote()是一个异步调用，计算执行体在发出后立即返回，继续处理下一个批次。存储执行体在后台陆续接收并应用这些梯度更新。

通过这样的协作，计算、通信、更新实现了高度的流水线化和重叠。从论文中的实验结果（图9）可以看到，在 ogbn-papers 数据集上，GraphScale 在达到与 DDP 相同精度的情况下，DeepWalk 训练时间减少了43%，LINE 训练时间减少了73%。

5. 性能调优与参数选择实战

部署 GraphScale 时，参数配置对性能有至关重要的影响。以下是一些关键的调优维度和实践经验。

5.1 关键参数配置指南

参数类别	参数名	影响与调优建议	典型值/范围
存储配置	`storage.num_actors`	决定嵌入矩阵的分片粒度。分片太少，单个分片内存压力大；分片太多，管理开销和通信连接数增加。建议：使每个分片大小在 10-50 GB 之间，兼顾内存效率和网络连接数。	10 - 100
`embedding.dtype`	嵌入向量的数据类型。fp16相比 fp32 可减少一半内存和通信量，大多数情况下精度足够。对于精度要求极高的任务，可使用 fp32。	`float16`
计算配置	`compute.num_actors`	并发训练的任务数。增加可提升吞吐，但会加剧对存储层的请求竞争。建议：设置为可用 CPU 核心总数的 50%-80%。可通过压测找到饱和点。	核心数 * 0.6
`compute.batch_size`	每个计算执行体处理的样本数。增大可提高计算效率，减少通信频率，但会增加单次通信的数据量和内存消耗。建议：从 256 或 512 开始，根据 GPU/CPU 内存和网络带宽调整。	256 - 2048
`request_batch_size`	计算执行体向存储层请求嵌入时，合并的节点ID数量。这是最重要的通信优化参数之一。增大可显著减少网络请求次数。	512 - 4096
训练配置	`training.learning_rate`	学习率。在异步 SGD 下，由于梯度延迟和噪声，通常需要比同步训练更小的学习率或更慢的衰减。	同步训练的 0.5-1倍
`optimizer`	优化器。SGD with Momentum是分布式场景下的稳健选择。Adam 等自适应优化器需要维护更多状态，增加存储和通信开销，但可能收敛更快。需权衡。	`sgd_with_momentum`

5.2 资源规划与瓶颈诊断

内存规划：
- 存储层内存：总内存需求 ≈num_nodes * embedding_dim * sizeof(dtype) * (1 + optimizer_factor)。例如，10亿节点，128维，fp16，加上动量（同样大小），总需求约为1e9 * 128 * 2 bytes * 2 = 512 GB。规划存储执行体数量时，需确保集群总内存大于此值，并预留操作系统和其他服务开销。
- 计算层内存：主要存放图拓扑的本地缓存、临时批处理数据。相对较小，但若图拓扑极大，也需要考虑分布式缓存。
网络带宽：这是最常见的瓶颈。监控网络吞吐量，如果接近饱和，可以尝试：
- 增大request_batch_size。
- 启用梯度压缩。
- 检查是否因图分区不合理导致跨机器通信过多。
- 考虑使用更高带宽的网络硬件（如 InfiniBand）。
CPU 利用率：如果 CPU 利用率低，可能是：
- 计算执行体数量不足，无法充分利用核心。
- 批处理大小 (batch_size) 太小，计算强度不够。
- 采样过程（如随机游走）成为瓶颈，需要优化采样器性能（考虑用 C++ 扩展或更高效的算法）。

实操心得：一定要进行小规模测试。先用一个子图（例如 1% 的节点）在单机或少量机器上跑通全流程，评估各个阶段的耗时（采样、通信、计算）。使用 Ray Dashboard 等工具可视化各个 Actor 的资源使用情况和任务时间线，能非常直观地发现瓶颈所在。例如，如果发现计算执行体大部分时间在ray.get()上等待存储层的响应，那么通信就是瓶颈。

6. 常见问题与排查技巧实录

在实际使用 GraphScale 或类似分布式框架时，你肯定会遇到各种问题。下面是我在实践和复现过程中遇到的一些典型情况及其解决思路。

6.1 训练不稳定或发散

现象：训练损失剧烈震荡，不收敛，甚至变成 NaN。
可能原因与排查：
1. 学习率过大：这是异步训练中最常见的原因。梯度延迟相当于给优化过程引入了噪声。解决方案：将学习率降至同步训练时的 1/2 或 1/3，并使用学习率预热（Warm-up）策略。
2. 梯度爆炸：在深度图神经网络中可能出现。解决方案：添加梯度裁剪（Gradient Clipping），在计算执行体将梯度发送给存储层之前，对梯度范数进行限制。
3. 数据分布极度倾斜：某些超级节点（拥有大量连接的节点）的梯度幅值远大于普通节点，干扰训练。解决方案：对采样过程进行调整，例如对节点进行度（degree）的平滑采样，或对超级节点的梯度进行缩放。
4. 存储执行体更新冲突：虽然概率低，但两个计算执行体几乎同时更新同一个节点的嵌入，可能导致状态损坏。解决方案：GraphScale 底层依赖的 Ray 和存储结构通常能保证原子性。如果怀疑此问题，可以临时为关键节点嵌入的更新加锁（性能会下降），或检查是否因负载不均导致某些节点被过度采样。

6.2 训练速度慢，达不到预期加速比

现象：增加机器后，训练时间没有线性下降，甚至变慢。
可能原因与排查：
1. 通信瓶颈：使用iftop、nethogs或集群监控工具查看网络带宽是否打满。解决方案：见 5.2 节网络带宽优化策略。
2. 存储执行体成为热点：某些“热门”节点（被频繁采样）的嵌入集中在少数几个存储执行体上，导致这些执行体过载。解决方案：检查分片策略。简单的范围分片可能导致负载不均。可以尝试更均匀的一致性哈希分片，或者引入虚拟分片（vitual sharding）来分散热点。
3. 计算执行体空闲：通过 Ray Dashboard 看到很多计算执行体处于空闲（Idle）状态。解决方案：检查采样器是否太慢，或者任务调度是否均衡。确保图数据能被快速访问。可以尝试增加采样器的并行度，或使用更快的采样库。
4. 批次大小不匹配：batch_size或request_batch_size设置过小，无法充分利用硬件和网络。解决方案：在内存允许范围内逐步增大这两个参数，观察吞吐量变化，找到收益递减的拐点。

6.3 内存占用过高

现象：存储执行体或计算执行体进程被操作系统杀死（OOM）。
可能原因与排查：
1. 嵌入矩阵估算错误：重新计算num_nodes * dim * dtype_size * (1 + optimizer_states)。确保dtype设置正确（如用了 fp32 但按 fp16 估算）。
2. 图拓扑内存泄漏：如果图数据被加载到每个计算执行体，且没有正确释放，会导致内存累积。解决方案：确保使用共享内存或外部图服务，避免多份拷贝。Ray 的 object store 可以用于在节点内共享只读数据。
3. Ray Actor 内存开销：每个 Actor 本身有内存开销。如果创建了成千上万个非常轻量的 Actor，总开销可能不小。解决方案：适当合并任务，减少 Actor 数量，但保持足够的并发度。

6.4 与现有代码/生态集成问题

现象：想用 GraphScale 训练一个自定义的 GNN 模型，但不知道如何入手。
解决方案：
1. 模型接口标准化：GraphScale 的核心是将嵌入查找（Embedding Lookup）和梯度更新（Gradient Update）抽象为远程服务。你的自定义模型层需要将嵌入查找操作替换为对StorageActor的远程调用。
2. 利用现有抽象：关注 GraphScale 是否提供了类似 PyTorchnn.Embedding的分布式包装器。你可以尝试实现一个DistributedEmbedding模块，其forward方法执行远程批量查询，backward方法将梯度异步发送出去。
3. 从简单开始：先别想着把整个复杂的 GNN 搬上去。尝试用 GraphScale 跑通一个最简单的 DistMult 知识图谱嵌入模型，理解数据流和接口。然后再将 GNN 的消息传递（Message Passing）中涉及的特征聚合部分，与分布式嵌入查找结合起来。论文中提到，许多为单机 GNN 设计的采样优化（如 GNS, NextDoor）可以与 GraphScale 互补使用。

最后，记住分布式调试的黄金法则：先让它在单进程/单机下正确运行，再扩展到分布式。使用 Ray 的本地模式（ray.init(local_mode=True)）可以在单机上模拟多 Actor 的行为，方便调试逻辑错误。分布式系统的复杂性往往在于意料之外的交互和状态，耐心地增量式验证和监控，是成功驾驭像 GraphScale 这样强大框架的关键。

查看全文

http://www.jsqmd.com/news/875391/