当前位置：首页 > news >正文

AI原生超算架构解析：从异构计算到万卡集群的优化实践

news 2026/5/10 10:43:47

1. 项目概述：当超算遇上AI，一场架构的“基因改造”

最近和几位做大规模AI训练的朋友聊天，大家普遍有个共识：传统的超级计算机，哪怕是那些峰值算力惊人的“巨无霸”，在跑起动辄千亿参数的大模型时，总感觉有点“使不上劲”。这感觉就像让一位举重冠军去参加百米赛跑，力量是顶级的，但爆发力和节奏感总差那么点意思。这种“不适配”的根源，往往不在芯片的绝对算力，而在于整个系统架构的设计哲学。今天要聊的Isambard-AI，就是一个非常典型的、从底层开始为AI工作负载“量身定制”的超级计算机案例。它由英国布里斯托大学、GW4联盟、英国气象局等机构联合打造，目标直指前沿AI与高性能计算（HPC）的融合。

Isambard-AI的核心价值，在于它不是一个简单堆砌了最新AI加速芯片的机器，而是一次对超算系统架构的深度重构。它试图回答一个关键问题：当计算任务的核心从传统的科学模拟（如流体力学、气候建模）转向数据密集、通信模式复杂的AI训练与推理时，我们该如何重新设计计算节点、网络拓扑、存储层次乃至软件栈？这个项目为我们提供了一个绝佳的观察窗口，去理解下一代面向AI的超级计算基础设施，其设计思路与传统的“通用型”超算有何本质不同。对于从事AI基础设施、算力中心规划，甚至是需要调度大规模算力进行研发的团队来说，理解Isambard-AI的架构选择，无异于获得了一份前沿的“设计参考手册”。

2. 核心架构设计思路：从“通用计算”到“AI原生”的范式转变

2.1 计算核心的异构化与专用化

传统超算追求的是在Linpack基准测试（HPL）上取得高分，这通常意味着需要极高的双精度浮点（FP64）计算能力和均衡的内存带宽。CPU是绝对的主角，GPU或加速器更多是作为协处理器，用于特定的加速库。而AI工作负载，尤其是大模型训练，其计算特征截然不同：大量使用混合精度（如FP16、BF16）甚至INT8整型计算，对张量核心（Tensor Core）运算效率极度敏感，计算密度高但访存模式有规律。

Isambard-AI选择了以NVIDIA GH200 Grace Hopper超级芯片为核心构建计算节点。这个选择本身就极具标志性。GH200并非简单的“CPU+GPU”，而是通过NVLink-C2C芯片间互连，将基于Arm Neoverse架构的Grace CPU与Hopper架构的GPU紧密耦合在一起。这种设计带来了几个为AI优化的关键特性：

内存一致性统一地址空间：CPU和GPU共享一个巨大的、一致的物理内存地址空间（GPU HBM3 + CPU LPDDR5x）。这意味着数据可以在CPU和GPU之间极低开销地移动，甚至无需显式的拷贝操作。对于AI训练中频繁在CPU进行数据预处理、在GPU进行模型计算的工作流，这能极大减少数据搬运的延迟和瓶颈。
超高带宽互连：NVLink-C2C提供了高达900GB/s的带宽，远超传统的PCIe 5.0（约128GB/s）。这确保了CPU和GPU能够像一颗芯片的两种核心那样高效协同，避免了因互连带宽不足导致的GPU“饥饿”现象。
针对AI的指令集与核心：Hopper GPU内置的第四代张量核心（Tensor Core）支持新的FP8精度格式，对于Transformer类模型训练，能在保持模型精度的同时，将吞吐量提升数倍。这是专为AI算法“定制”的硬件特性。

注意：选择GH200而非更“通用”的x86 CPU + 独立GPU方案，是一个鲜明的“AI优先”信号。它牺牲了部分对传统x86生态的完全兼容性，换来了针对AI负载的极致内部通信效率和内存访问性能。这要求软件栈（编译器、运行时、框架）必须能够充分利用这种紧耦合异构特性。

2.2 网络拓扑：低延迟与高吞吐的再平衡

超算的“心脏”是互联网络。传统HPC应用（如MPI并行计算）通常对点对点延迟（Latency）极其敏感，因为需要频繁进行小消息同步。而大规模AI训练（尤其是数据并行结合模型并行）虽然也要求低延迟，但对全局All-Reduce操作（用于梯度同步）的聚合带宽（Bandwidth）提出了前所未有的高要求。一次All-Reduce操作需要所有参与计算的GPU同时进行大量数据交换。

Isambard-AI采用了NVIDIA的Quantum-2 InfiniBand网络平台，并构建了一个胖树（Fat-Tree）拓扑。胖树拓扑的优势在于它能提供无阻塞（Non-blocking）的带宽，即任意两个节点之间通信，都不会因为网络中间节点的带宽瓶颈而受限。这对于需要全体GPU同步的AI训练至关重要。Quantum-2 InfiniBand支持400Gb/s的端到端带宽，并内置了SHARP（Scalable Hierarchical Aggregation and Reduction Protocol）技术。SHARP允许在网络交换机内部直接完成All-Reduce等集合通信操作，将数据在“途中”就进行聚合，而不是先发送到某个GPU再计算。这能显著减少网络流量和同步延迟，对于提升大规模AI训练的扩展效率（Scaling Efficiency）是关键一招。

实操心得：在评估面向AI的超算网络时，不能只看单端口带宽和延迟。网络拓扑（是否无阻塞）、是否支持类似SHARP的在线计算功能、以及网络驱动与AI通信库（如NCCL）的集成优化程度，这些因素共同决定了万卡规模下训练效率的“天花板”。Isambard-AI的选择，为万卡级AI集群的网络设计树立了一个高标准。

2.3 存储架构：应对“数据洪流”的分层策略

AI训练，特别是涉及多模态数据（图像、视频、文本）时，是一个“数据吞噬兽”。数据读取的IOPS（每秒读写次数）和吞吐量（Throughput）必须跟上成千上万个GPU的计算节奏，否则GPU就会空闲等待数据，造成资源浪费。

Isambard-AI的存储系统采用了经典的高性能分层设计，但每一层都针对AI流水线进行了优化：

高速暂存层（Burst Buffer）：通常由全闪存阵列（如NVMe SSD）构成，提供极高的IOPS和低延迟访问。它的角色是作为“数据准备区”。在训练任务开始前，作业调度系统会将所需的数据集从大容量存储“预热”到暂存层。训练过程中，GPU直接从暂存层读取数据，速度极快。这避免了直接访问后端并行文件系统可能带来的延迟抖动。
并行文件系统层：采用如Lustre或GPFS等方案，提供PB级甚至EB级的命名空间和稳定的高聚合带宽。它是数据的“永久家园”，用于存储海量的原始数据集、检查点（Checkpoint）和训练结果。Isambard-AI需要确保其并行文件系统的元数据服务器（MDS）性能足够强悍，以应对成千上万个计算节点同时发起文件打开、列举等操作。
数据预处理与流水线：一个常被忽视的优化点是数据预处理管线。Isambard-AI这类系统会强调在CPU内存或暂存层进行高效的数据解码、增强和批处理（batching），并通过DMA或GPUDirect Storage（GDS）技术，让预处理好的数据直接进入GPU内存，绕过CPU内存的多次拷贝，进一步降低数据供给延迟。

2.4 软件栈与调度系统：AI工作流的“操作系统”

再好的硬件也需要高效的软件来驱动。Isambard-AI的软件栈核心是围绕“容器化”和“动态资源调度”展开的。

容器化与定制化镜像：通过Docker或Singularity/Apptainer等容器技术，将复杂的AI框架（如PyTorch, TensorFlow）、特定版本的CUDA库、优化过的通信库（NCCL）以及用户代码打包成一个完整的、可移植的运行环境。这保证了环境的一致性，也简化了在异构架构上的部署。
作业调度器：采用Slurm或类似的高级调度系统。但对于AI任务，调度策略需要更智能。它不仅要分配计算节点，还要考虑数据的位置（亲和性调度），管理检查点的保存与恢复，并支持弹性作业（如抢占式调度或动态扩展作业规模）。Isambard-AI的调度器需要能够理解AI作业的生命周期特点。
性能监控与诊断：集成像NVIDIA DCGM、Ganglia或Prometheus+Grafana这样的监控栈，实时收集每个GPU的利用率、显存占用、温度、功耗以及网络带宽使用情况。这对于排查训练效率瓶颈、优化资源利用率和进行能效管理至关重要。当上万张GPU同时运行时，没有全景式的监控，性能调优将无从下手。

3. 关键性能指标与优化策略解析

3.1 衡量AI超算的核心指标：不仅仅是FLOPS

对于Isambard-AI这类系统，峰值浮点算力（PFLOPS）固然重要，但已不是唯一标尺。更关键的指标包括：

AI实际性能：在标准AI基准测试（如MLPerf Training）上的成绩，特别是训练特定模型（如GPT-3、ResNet-50）达到目标精度所需的时间。
规模扩展效率：当GPU数量从256张增加到1024张、乃至上万张时，训练速度的提升比例。理想情况是线性增长（效率100%），但受通信开销限制，实际能达到70%-90%就已非常优秀。Isambard-AI的架构目标就是尽可能提升万卡规模下的扩展效率。
能效比（Performance per Watt）：完成单位计算量（如训练一个模型迭代）所消耗的电能。这对于运营成本高昂的超算中心是生命线。GH200的Grace CPU采用能效比更优的Arm架构，以及整个系统在散热、供电上的设计，都服务于提升能效比。
系统可靠性（Reliability）与可用性（Availability）：在数周甚至数月的大模型训练周期内，如何应对不可避免的硬件故障（如GPU卡、节点、网络链路故障）。这需要硬件冗余、快速的故障检测、以及作业检查点/恢复机制的紧密配合。

3.2 通信优化：决定扩展效率的胜负手

在大规模AI训练中，通信开销往往是限制扩展效率的主要瓶颈。Isambard-AI的优化策略是多层次的：

网络硬件层：如前所述，采用高带宽、无阻塞的InfiniBand胖树网络和SHARP技术。
通信库层：深度优化NCCL（NVIDIA Collective Communications Library）。NCCL能够自动识别网络拓扑，为All-Reduce、All-Gather等集合操作选择最优的通信算法和路径。在Isambard-AI这样的同构（均采用GH200）系统中，NCCL的优化效果会更加显著。
算法与框架层：在AI框架中采用梯度压缩、异步更新、重叠计算与通信（Computation-Communication Overlap）等技术。例如，在反向传播计算梯度时，就可以将已计算好的部分梯度先行开始通信，而不是等所有梯度计算完再统一通信。

3.3 存储IO优化：喂饱GPU的“数据流水线”

存储性能优化是另一个深水区。除了硬件上配置高速暂存层，在软件层面还需：

高效的数据加载器：在PyTorch中使用DataLoader时，设置合适的num_workers，利用多进程预加载数据到内存，避免单个进程读数据成为瓶颈。对于超大规模训练，可能需要定制化的分布式数据加载方案。
文件格式与布局：将海量小文件（如图片）打包成TFRecord或WebDataset等顺序读取友好的格式，可以极大提升IO吞吐。将数据以更接近网络拓扑的方式分布存储（数据局部性），也能减少跨网络的数据访问。
检查点策略：保存模型检查点是一个密集的IO操作。采用异步检查点（在GPU计算的同时，由CPU或专用IO节点后台保存）、增量检查点（只保存上次检查点以来的变化）、或压缩检查点等技术，可以减少IO对训练主流程的干扰。

4. 应用场景与对研发模式的影响

4.1 赋能的前沿科研与产业领域

Isambard-AI这类AI超算的目标应用非常明确：

大语言模型（LLM）与多模态基础模型：训练下一代参数规模更大、能力更强的生成式AI模型。
科学AI（AI for Science）：在气候预测、天体物理、新材料发现、药物研发等领域，将物理模型与AI融合，进行高精度的模拟与推理。例如，用AI加速气候模型的参数化过程。
数字孪生与工业仿真：构建城市、电网、工厂等复杂系统的数字孪生，并利用AI进行实时仿真、优化和故障预测。
自动驾驶与机器人：用于训练更复杂、更安全的感知、决策与控制模型。

4.2 改变AI研发的工作流与协作模式

这种集中式、超大规模的AI算力基础设施，正在改变AI研发的模式：

从“小作坊”到“工厂化”：研究人员不再局限于在本地服务器或少量云GPU上进行实验。他们可以将想法快速提交到像Isambard-AI这样的平台上，进行大规模的超参数扫描、架构搜索或长周期训练，极大加速了创新迭代周期。
促进跨学科协作：将计算科学家、AI专家、领域专家（如生物学家、气候学家）聚集在同一套强大的工具链上，打破了学科间的算力壁垒，催生真正的交叉创新。
对软件工程提出更高要求：在这种环境下运行的代码，必须具备极高的容错性、可扩展性和可维护性。这推动了AI开发向更工程化、更规范化的方向发展。

5. 挑战、考量与未来展望

5.1 当前架构面临的挑战

尽管Isambard-AI代表了前沿方向，但其架构也面临一些挑战和权衡：

生态锁定风险：深度依赖单一厂商（如NVIDIA）的完整技术栈（Grace Hopper芯片、NVLink、InfiniBand、CUDA），在灵活性、成本控制和供应链安全上可能存在风险。业界也在探索更开放的生态，如基于AMD MI300X或自研AI芯片（如Groq、Cerebras）的集群。
编程复杂性：要充分发挥GH200等紧耦合架构的性能，开发者需要更深入地理解异构编程模型（如NVIDIA的NVSHMEM），学习曲线较陡。
功耗与散热：万卡级集群的功耗可达数兆瓦甚至数十兆瓦，散热和供电是巨大的工程挑战，直接关系到系统的稳定运行和运营成本。
资源调度与公平性：如何在海量用户和作业中高效、公平地调度资源，满足不同优先级、不同规模作业的需求，是一个复杂的调度算法和策略问题。

5.2 未来演进方向

展望未来，面向AI的超算架构可能会呈现以下趋势：

异构计算的进一步融合：不仅限于CPU+GPU，可能集成更多专用处理单元（如用于稀疏计算的DPU，用于光计算的单元），形成更复杂的异构计算平台。
存算一体与近内存计算：为了突破“内存墙”，将计算单元更近地嵌入到存储介质附近，减少数据搬运，是提升能效比的根本性方向。
光互连与硅光技术：利用光互连技术替代部分电互连，以追求更高的带宽、更低的延迟和更低的功耗，是超大规模集群互连的必然选择。
软件定义的硬件：通过可重构架构（如FPGA）或更灵活的指令集，使硬件能够根据不同的AI工作负载动态调整，实现更高的通用性与效率的平衡。

Isambard-AI项目为我们勾勒出了一幅清晰的图景：未来的超级计算，将不再是单纯追求浮点运算次数的“算力怪兽”，而是深度融合了特定领域计算特征（尤其是AI）、具备极高能效比和可扩展性的“智能计算工厂”。它的每一个架构决策——从芯片级耦合到网络拓扑，再到存储层次——都紧密围绕着如何高效、稳定、可持续地驱动AI创新这个核心目标。对于任何想要构建或利用下一代算力基础设施的团队而言，深入理解这些设计背后的逻辑，远比单纯关注峰值算力数字更有价值。

查看全文

http://www.jsqmd.com/news/788902/