当前位置：首页 > news >正文

从CPU低延迟、GPU高带宽到大规模GPU集群

news 2026/3/27 4:37:08

一、CPU和GPU的架构和特性

计算任务的耗时体现在两个方面：逻辑复杂，海量。为了更快地处理比较复杂的任务，需要优化处理单个任务的时间，也就是低延迟，于是产生了CPU；为了更快地处理巨量互不依赖的任务，需要在空间上让他们并行，于是产生了GPU。

层级	CPU	GPU
塔尖	寄存器	寄存器
次顶层	L1/L2/L3（共享）缓存	L1/L2缓存
中间层	主内存（DDR）	显存（GDDR）
塔底	SSD/硬盘	系统内存（显存溢出时）
核心	几个到几十个高性能核心（控制复杂逻辑）	几千个简单核心

1.CPU为了低延迟，做了几件事：

1）乱序执行：遇到需要等待的指令，提前预测先执行不依赖结果的指令；（注意不是并发编程，并发编程是多个任务调度任务切换，这个是一个任务里调度“指令切换”，是CPU里自动的过程）

2）缓存：L1缓存更小更快了，大部分数据都能从高速缓存L1中找到，同时低速缓存搬未来（分支预测）要用的数据，所以提速依赖缓存命中率，如果越过L1直接去L3找东西会慢特别多；

3）分支预测：猜出接下来运行什么指令，把数据提前搬好，避免空转等待（停着等结果算出来，知道方向了再取数据）；如果猜错了还需要清空流水线和重新搬数据；

4）缓存一致性协议：当一个核心修改了某个数据，协议会通过共享的L3，高速通知其他核心更新缓存，也就是数据同步得更快，不需要停下来互相通信。

2.GPU为了加速很多同时进行的简单计算任务，需要：

1）计算并行，即同时进行很多计算任务；

2）隐藏延迟：当一个线程（任务）访问显存，发生 Cache Miss（缓存未命中），需要等待几百个周期才能取回数据，GPU 的硬件调度器将这个线程挂起（不占用计算资源），并立即从另一组准备好的线程中选一个出来，分配给这个核心执行；当数据从显存取回后，这个被挂起的线程重新变为「就绪」状态，之后可能由原来的核心、也可能由另一个空闲核心继续完成计算。

3）高带宽：指显存，成千上万个核心同时开工，数据通道一次巨量地搬运数据（位宽），同时每秒搬的次数也多（频率），带宽=位宽 × 频率。

但是存在冯·诺依曼瓶颈：处理器的速度（计算）通常比数据搬运的速度（传输）快得多。计算和数据的关系总在演变：

早期：往往是数据传输卡脖子（传送带不够宽，工人吃不饱）。
现在：随着HBM等超宽带内存的出现，部分场景下计算能力又成了短板。这也是为什么AI公司需要堆砌成千上万个GPU来训练模型，因为需要同时调动海量的计算核心和海量的数据带宽。

那么大规模GPU集群是怎么将海量的GPU结合起来的呢？

二、大规模GPU集群

大规模计算集群需要专用的高速公路网把他们连接起来，需要Scale-Up + Scale-Out 两层网络：

城内交通（Scale-Up）：连接同一个服务器内部的几个GPU。要求极速、超宽，因为它们是协同工作的最紧密单元。
城际交通（Scale-Out）：连接不同服务器、不同机柜的GPU。要求能跑很远、覆盖很广，但速度可以稍慢一点。

城内交通：NVLink，把不同的GPU连成一个显存超大、计算单元超多的GPU；

城际交通：InfiniBand / RoCE（跨服务器）

主流方案：InfiniBand（IB）

这是高性能计算的王者，几乎所有万卡集群都靠它。

物理形态：真正的网线（铜缆或光缆） +InfiniBand交换机。
核心技术：RDMA
- 传统方式：GPU A要给GPU B发数据，数据要走：GPU A → CPU A → 网卡 → 网络 → CPU B → GPU B。CPU被来回折腾，延迟高。
- RDMA方式：GPU A的数据直接通过网卡，绕过CPU，直接塞进GPU B的显存。这叫GPUDirect RDMA。
拓扑结构：采用胖树（Fat Tree）架构，保证从任何一个GPU到另一个GPU的路径都是无阻塞的。
速度：当前主流是400Gbps（约50 GB/s），虽然比NVLink慢很多，但已经是跨服务器的极限了。

（进阶技术：SHARP：在InfiniBand交换机里，还有一个叫SHARP的技术。它让交换机本身也能参与计算。比如在做AllReduce（一种常见的梯度同步操作）时，数据在流经交换机时就被累加好了，不需要全部传回GPU再算。这就像快递在运输途中就把包裹合并了，省去了最后一站的分类时间。）

下面具体地看一看InfiniBand是怎么更快更广地联系不同服务器、不同机柜的GPU的。

1.RDMA

RDMA依靠三大技术绕过CPU内核：

技术	传统方式	RDMA方式	类比
零拷贝	数据在应用缓冲区→内核缓冲区→网卡之间来回复制	网卡直接从应用内存DMA读取，一次复制都没有	不用把文件先放到公司前台，快递员直接进你办公室拿走
内核旁路	每次收发都要经过操作系统内核，产生上下文切换	应用直接跟网卡对话，不打扰内核	不用通过前台转交，直接跟快递员对接
协议卸载	CPU负责处理TCP/IP协议栈	网卡硬件自己处理传输协议	快递员自带导航和合同，不用你指路

事前准备：GPU A和GPU B分别在各自的网卡上「注册」一块内存区域，网卡记录这些内存的地址和密钥。（留一块内存给网卡零拷贝读取）
发起传输：GPU A的应用直接告诉网卡：「把显存地址X开始的1GB数据，写到GPU B的显存地址Y」。（建立内核旁路，也就是内核旁边的路）
硬件执行：
- GPU A的网卡直接从显存DMA读取数据（零拷贝）
- 网卡将数据打包成RDMA协议包，通过InfiniBand或RoCE网络发送（协议卸载）
- GPU B的网卡收到后，根据包里的地址信息，直接DMA写入GPU B的显存（零拷贝，内核旁路）
完成通知：写完后，网卡在完成队列（理解为一个信箱）里放一个标志，GPU B轮询（时不时来查看信箱）时就知道数据已到

全程CPU零参与——GPU B的CPU甚至不知道发生了这次传输。

2.胖树

而胖树的作用是保证两个GPU之间有多条不堵车的路径。

[核心层（根）] C1 ── C2 ── C3 ... (核心交换机) / \\\\ / \\\\ / \\\\ [聚合层] A1 A2 A3 A4 A5 A6 (聚合交换机) / \\\\ / \\\\ / \\\\ / \\\\ / \\\\ / \\\\ [边缘层] L1 L2 L3 L4 L5 L6 L7 L8 (边缘交换机) | | | | | | | | 服务器服务器服务器服务器...

胖树的特点：普通树结构越往根（上连端口）带宽越小（根更少），胖树根带宽反而越大，根带宽≥枝叶带宽，形成无阻塞：在大量GPU相互通信的时候，不会竞争带宽产生阻塞（也叫全二分带宽，即无论根怎么二分地切，切口带宽总是更大）。

胖树的结构具体对应到GPU间的通信，一般情况两个需要通信的GPU在同一个Spine里，A (GPU) → Leaf1 → Spine2 → Leaf2 → B (GPU)；

如果Spine掉线了，可以通过Core换一个Spine（换了条路），形成A (GPU) → Leaf1 → Spine2 → Core → Spine5 → Leaf3 → C (GPU)。

查看全文

http://www.jsqmd.com/news/485360/