当前位置: 首页 > news >正文

从CPU低延迟、GPU高带宽到大规模GPU集群

一、CPU和GPU的架构和特性

计算任务的耗时体现在两个方面:逻辑复杂,海量。为了更快地处理比较复杂的任务,需要优化处理单个任务的时间,也就是低延迟,于是产生了CPU;为了更快地处理巨量互不依赖的任务,需要在空间上让他们并行,于是产生了GPU。

层级CPUGPU
塔尖寄存器寄存器
次顶层L1/L2/L3(共享)缓存L1/L2缓存
中间层主内存(DDR)显存(GDDR)
塔底SSD/硬盘系统内存(显存溢出时)
核心几个到几十个高性能核心(控制复杂逻辑)几千个简单核心

1.CPU为了低延迟,做了几件事:

1)乱序执行:遇到需要等待的指令,提前预测先执行不依赖结果的指令;(注意不是并发编程,并发编程是多个任务调度任务切换,这个是一个任务里调度“指令切换”,是CPU里自动的过程)

2)缓存:L1缓存更小更快了,大部分数据都能从高速缓存L1中找到,同时低速缓存搬未来(分支预测)要用的数据,所以提速依赖缓存命中率,如果越过L1直接去L3找东西会慢特别多;

3)分支预测:猜出接下来运行什么指令,把数据提前搬好,避免空转等待(停着等结果算出来,知道方向了再取数据);如果猜错了还需要清空流水线和重新搬数据;

4)缓存一致性协议:当一个核心修改了某个数据,协议会通过共享的L3,高速通知其他核心更新缓存,也就是数据同步得更快,不需要停下来互相通信。

2.GPU为了加速很多同时进行的简单计算任务,需要:

1)计算并行,即同时进行很多计算任务;

2)隐藏延迟:当一个线程(任务)访问显存,发生 Cache Miss(缓存未命中),需要等待几百个周期才能取回数据,GPU 的硬件调度器将这个线程挂起(不占用计算资源),并立即从另一组准备好的线程中选一个出来,分配给这个核心执行;当数据从显存取回后,这个被挂起的线程重新变为「就绪」状态,之后可能由原来的核心、也可能由另一个空闲核心继续完成计算。

3)高带宽:指显存,成千上万个核心同时开工,数据通道一次巨量地搬运数据(位宽),同时每秒搬的次数也多(频率),带宽=位宽 × 频率。

但是存在冯·诺依曼瓶颈:处理器的速度(计算)通常比数据搬运的速度(传输)快得多。计算和数据的关系总在演变:

  • 早期:往往是数据传输卡脖子(传送带不够宽,工人吃不饱)。
  • 现在:随着HBM等超宽带内存的出现,部分场景下计算能力又成了短板。这也是为什么AI公司需要堆砌成千上万个GPU来训练模型,因为需要同时调动海量的计算核心和海量的数据带宽。

那么大规模GPU集群是怎么将海量的GPU结合起来的呢?

二、大规模GPU集群

大规模计算集群需要专用的高速公路网把他们连接起来,需要Scale-Up + Scale-Out 两层网络:

  1. 城内交通(Scale-Up):连接同一个服务器内部的几个GPU。要求极速、超宽,因为它们是协同工作的最紧密单元。
  2. 城际交通(Scale-Out):连接不同服务器、不同机柜的GPU。要求能跑很远、覆盖很广,但速度可以稍慢一点。

城内交通:NVLink,把不同的GPU连成一个显存超大、计算单元超多的GPU;

城际交通:InfiniBand / RoCE(跨服务器)

主流方案:InfiniBand(IB)

这是高性能计算的王者,几乎所有万卡集群都靠它 。

  • 物理形态:真正的网线(铜缆或光缆) +InfiniBand交换机
  • 核心技术:RDMA
    • 传统方式:GPU A要给GPU B发数据,数据要走:GPU A → CPU A → 网卡 → 网络 → CPU B → GPU B。CPU被来回折腾,延迟高。
    • RDMA方式:GPU A的数据直接通过网卡,绕过CPU,直接塞进GPU B的显存 。这叫GPUDirect RDMA
  • 拓扑结构:采用胖树(Fat Tree)架构,保证从任何一个GPU到另一个GPU的路径都是无阻塞的 。
  • 速度:当前主流是400Gbps(约50 GB/s),虽然比NVLink慢很多,但已经是跨服务器的极限了。

(进阶技术:SHARP:在InfiniBand交换机里,还有一个叫SHARP的技术 。它让交换机本身也能参与计算。比如在做AllReduce(一种常见的梯度同步操作)时,数据在流经交换机时就被累加好了,不需要全部传回GPU再算 。这就像快递在运输途中就把包裹合并了,省去了最后一站的分类时间。)

下面具体地看一看InfiniBand是怎么更快更广地联系不同服务器、不同机柜的GPU的。

1.RDMA

RDMA依靠三大技术绕过CPU内核:

技术传统方式RDMA方式类比
零拷贝数据在应用缓冲区→内核缓冲区→网卡之间来回复制网卡直接从应用内存DMA读取,一次复制都没有不用把文件先放到公司前台,快递员直接进你办公室拿走
内核旁路每次收发都要经过操作系统内核,产生上下文切换应用直接跟网卡对话,不打扰内核不用通过前台转交,直接跟快递员对接
协议卸载CPU负责处理TCP/IP协议栈网卡硬件自己处理传输协议快递员自带导航和合同,不用你指路
  1. 事前准备:GPU A和GPU B分别在各自的网卡上「注册」一块内存区域,网卡记录这些内存的地址和密钥。(留一块内存给网卡零拷贝读取)
  2. 发起传输:GPU A的应用直接告诉网卡:「把显存地址X开始的1GB数据,写到GPU B的显存地址Y」。(建立内核旁路,也就是内核旁边的路)
  3. 硬件执行
    • GPU A的网卡直接从显存DMA读取数据(零拷贝)
    • 网卡将数据打包成RDMA协议包,通过InfiniBand或RoCE网络发送(协议卸载)
    • GPU B的网卡收到后,根据包里的地址信息,直接DMA写入GPU B的显存(零拷贝,内核旁路)
  4. 完成通知:写完后,网卡在完成队列(理解为一个信箱)里放一个标志,GPU B轮询(时不时来查看信箱)时就知道数据已到

全程CPU零参与——GPU B的CPU甚至不知道发生了这次传输。

2.胖树

而胖树的作用是保证两个GPU之间有多条不堵车的路径。

[核心层(根)] C1 ── C2 ── C3 ... (核心交换机) / \\\\ / \\\\ / \\\\ [聚合层] A1 A2 A3 A4 A5 A6 (聚合交换机) / \\\\ / \\\\ / \\\\ / \\\\ / \\\\ / \\\\ [边缘层] L1 L2 L3 L4 L5 L6 L7 L8 (边缘交换机) | | | | | | | | 服务器服务器服务器服务器...

胖树的特点:普通树结构越往根(上连端口)带宽越小(根更少),胖树根带宽反而越大,根带宽≥枝叶带宽,形成无阻塞:在大量GPU相互通信的时候,不会竞争带宽产生阻塞(也叫全二分带宽,即无论根怎么二分地切,切口带宽总是更大)。

胖树的结构具体对应到GPU间的通信,一般情况两个需要通信的GPU在同一个Spine里,A (GPU) → Leaf1 → Spine2 → Leaf2 → B (GPU);

如果Spine掉线了,可以通过Core换一个Spine(换了条路),形成A (GPU) → Leaf1 → Spine2 → Core → Spine5 → Leaf3 → C (GPU)。

http://www.jsqmd.com/news/485360/

相关文章:

  • 用北方苍鹰优化算法优化随机配置网络SCN参数
  • 扣子(Coze)零基础入门全攻略|扣子(Coze)核心功能详解,含长期记忆、快捷指令、音视频处理及私有化部署指南
  • 揭秘CAIE认证:证书含金量、对就业的实际帮助及项目实战模块
  • 金融平台如何扩展KindEditor的PPT动态内容自动填充?
  • WangEditor在Vue2中如何处理Word文档中的特殊格式粘贴?
  • Claude上下文再大,也绕不开agent开发的“分治”艺术
  • 为什么说杨建允团队是GEO优化的顶级服务商? - 博客万
  • 理性评估:对比主流AI证书,赛一认证对应届生求职的实际加成
  • windows10本地安全隔离配置openclaw
  • 国产化控件如何实现KindEditor的PDF自动格式转换?
  • 解锁论文写作新姿势:书匠策AI,你的期刊论文智能导航员
  • 2026年佛山推荐售后好的木纹砖生产厂,哪家更值得选全揭秘 - 工业品网
  • 【爬虫】使用 Scrapy 框架爬取豆瓣电影 Top 250 数据的完整教程
  • 海洋主题文本聚类研究与可视化分析
  • 2026年上海靠谱中央空调排名,实力强的厂家推荐 - mypinpai
  • 为什么积分运算电路在反馈电容上要并联电阻
  • 教程分享:Vue2如何结合百度WebUploader插件实现大文件上传的进度可视化?
  • 航空航天Web服务如何基于百度WebUploader实现三维模型文件的跨平台分块校验?
  • 分布式驱动电动汽车模型:前轮主动转向与直接横摆力矩联合控制开发之路
  • 2026年佛山靠谱的GEO优化公司排名,知名GEO优化企业大盘点 - 工业推荐榜
  • 电动汽车集群并网的分布式鲁棒优化调度 电动汽车集群优化 采用matlab+yalmip编程,设...
  • 政务CMS如何扩展KindEditor的多格式文档智能填充?
  • CAIE认证课程体系全景图:从基础到进阶,覆盖哪些核心技术?
  • 通信工程毕业设计最新题目汇总
  • 农业信息化如何优化KindEditor的Web截屏插件功能?
  • C++编程实践—C++处理磁盘大小
  • 微信小程序 舞蹈课程预约系统 舞房约课系统
  • 2026年专科生必看!千笔·降AI率助手,最受欢迎的降AI率网站
  • 生成引擎优化(GEO)提升数字内容创作效率与用户体验的实践指南
  • 2026深度测评10款论文降重工具:3个免费方法亲测有效!谁是降重的最优解?(附论文降重避坑指南)