当前位置: 首页 > news >正文

AI Infra 硬件体系与编程模型:1. 硬件体系基础

AI Infra 从零开始:为什么大模型时代“以GPU为中心”是唯一解?

从 CPU 到 GPU,不只是一次硬件的更替,更是一场计算范式的革命。

引言:一场静默的硬件革命

在传统后台开发中,我们早已习惯了“以 CPU 为中心”的思维模式。高并发、微服务、多线程,这些是我们解决问题的核心武器。然而,随着大模型的爆发,这套方法论正在被颠覆。

当第一次看到“生成一个 token 的耗时 = 模型参数大小 ÷ 显存带宽”这个公式时,我意识到硬件设计的逻辑已经发生了根本性的改变。本文作为AI Infra 学习笔记的第一篇,将深入剖析现代 GPU 硬件架构,理解为什么 AI 时代必须“以 GPU 为中心”。

一、为什么 GPU 成为 AI 的核心?

1.1 从“逻辑事务”到“高吞吐计算”

传统基础设施以 CPU 为核心,处理的是逻辑事务(如 Web 服务、数据库操作),瓶颈通常在于网络 I/O 和 CPU 核心数量。而 AI Infra 的核心任务变成了高吞吐的浮点计算——即大规模的矩阵乘法运算。

CPU的一个核心就像一个全能教授,什么问题都能解,但培养成本高(占用芯片面积大)。GPU的一个核心像一个小学生,只会做简单算术,但可以请几千个小学生同时算,总速度远超一位教授。

深度学习的核心操作,如全连接层、卷积层、循环神经网络(RNN)的变体,其底层几乎都可以归结为大规模矩阵乘法和张量运算。

  • 举个例子:一个简单的矩阵乘法 C = A × B,如果矩阵维度是1000x1000,那么就需要进行10亿次乘加运算。这些运算的特点是:
    • 计算模式相同:每个输出元素的计算公式完全一样(乘积累加)。
    • 数据独立:计算 C[0][0] 和 C[0][1] 所需的数据互不干扰,可以并行执行。
    • 算术密度高:相对于数据搬运,算术操作本身很多。

这正是GPU的用武之地。它的数千个核心可以同时独立计算 C 矩阵的不同元素,实现天量的并行加速。

这个大模型训练和推理的时代,计算密度已经达到了传统 CPU 无法承受的程度。当大模型每次生成一个 token,都需要读取全量的模型参数时,计算和通信都必须“Offload”到 GPU 内完成,CPU 则退居二线,扮演起“数据搬运工”的角色。

1.2 计算密度的量化分析

让我们通过一个关键公式来理解这个问题:

生成一个 token 的耗时 ≈ 模型参数大小 ÷ 显存带宽

为什么是这个公式?原因在于大模型的推理过程是“访存密集”而非“计算密集”的。对于每单个 token 的处理,需要对每个参数执行一次乘加运算,这时ALU(算术逻辑单元)往往在等待数据加载,因此性能瓶颈就落在了显存带宽上。

这里有一个直观的案例对比。以DeepSeek-R1-671B-A37B-FP8模型为例:

  • 在 H20 GPU 上:参数大小 37B × 1byte ÷ 4000GB/s ≈9ms/token
  • 在 CPU 上:参数大小 37B × 1byte ÷ 64GB/s ≈578ms/token

这个 64 倍的差距,就是为什么我们不能用传统服务器运行大模型的根本原因。CPU 处理一个 token 的时间,GPU 已经处理完一个句子了。

二、现代 GPU 的关键架构特征

理解了“为什么是 GPU”之后,我们需要进一步拆解,看看现代 AI 芯片(以 H20 为例)是如何设计以满足 AI 计算需求的。

2.1 内部构成

下图是一张NVIDIA GPU核心的内部整体架构图,由多个GPC (图形处理集群)组成

  • GPC (图形处理集群)
    GPC是最高级的硬件块,基本可视为一个完整的、独立的GPU核心。当代旗舰GPU通常拥有6-12个GPC。
    它集成了光栅引擎和光栅处理单元(ROP),负责将计算后的3D图形数据(由顶点构成)转换为可显示的2D像素图像。


我们进一步观察每个GPC的内部构成,它又由多个TPC构成:

  • TPC (纹理处理集群)
    介于GPC和SM之间的中间层级,负责纹理相关的处理,每个TPC通常包含2个SM。

从上图可以发现每个TPC由两个流式多处理器 (SM)组成

SM是GPU最基本的计算单元,负责执行大部分运算,堪称NVIDIA GPU的“计算心脏”。一个SM内部集成了多种功能模块:

  • CUDA核心:执行通用计算任务的最小单元,负责浮点和整数运算。在当代架构中,每个SM拥有128个CUDA核心。
  • 张量核心 (Tensor Core):专为深度学习设计的矩阵运算加速器,是实现AI计算的关键。当代架构中,每个SM通常集成4个。
  • RT核心 (RT Core):仅存在于GeForce显卡中,用于加速实时光线追踪。在Ada架构中,每个SM包含1个第三代RT Core。
  • 特殊功能单元 (SFU):加速特定复杂数学运算,如三角函数、倒数平方根等。
  • 加载/存储单元 (LD/ST):负责处理GPU核心与内存之间的数据加载和存储。
  • 线程束调度器 (Warp Scheduler):调度和管理一组32个线程的指令执行。GPU以“线程束”为基本调度单位,使用SIMT架构实现高效并行。
  • L1缓存/共享内存:内核内部的极高速暂存存储器,供SM内所有核心共用,通过配置可以充当L1数据缓存或用户直接管理的共享内存。

此外,外部还有内存与存储子系统

  • 显存 (VRAM):全局大容量存储空间,即显卡板载的内存。专业用途(如H100)使用超高带宽的HBM3/3e内存,消费级(如RTX 40系)则使用GDDR6X内存。
  • L2缓存:连接SM与显存,能被所有SM共享,用于缓存频繁访问的数据,大幅降低对较慢显存的访问次数。A100的L2缓存容量为40MB,而Ada架构则将其容量提升了16倍。
  • 显存控制器 (Memory Controller):管理L2缓存与显存之间的数据流。

2.2 GPU 进行 AI 计算的原理

简单来说,GPU会像一台由CPU指挥的“超级计算机”,通过CUDA将深度学习这类庞大的并行计算任务,拆解成无数个小任务,在它成千上万的核心上同时执行,从而极大地加速训练。

GPU与CPU协同工作,才能最高效地完成训练。下图清晰地展示了它们各自的分工:

接下来,让我们深入了解训练过程中具体发生了什么。

1. 第一步:以核函数 (Kernel) 定义任务

CPU是总指挥,它不直接参与GPU的大规模运算,而是通过一个叫核函数(Kernel)的指令,告知GPU要执行的任务。核函数是CPU上的一段代码,用于定义GPU上一个线程要执行的操作。以最简单的向量加法为例,CPU上的核函数启动代码如下:

# 此代码运行在CPU上,用于启动GPU上的核函数# threads_per_block 和 blocks_per_grid 定义了任务如何被分解vector_add_kernel[blocks_per_grid,threads_per_block](a,b,c)

这段代码将启动GPU上的 vector_add_kernel 核函数。开发者需要精心设计 blocks_per_grid 和 threads_per_block,将庞大的并行工作拆解为数千甚至上百万个小任务,并分配到GPU上数以千计的CUDA核心上高效运行。

2. 第二步:在GPU上执行大规模并行计算

核函数启动后,GPU的数千个计算核心便开始并行执行,这正是加速训练的关键。其中,现代NVIDIA GPU(如Volta架构及之后)拥有两类核心来处理不同类型的任务:

  • CUDA核心 (CUDA Core):GPU中的通用计算主力,它像一个基础计算单元,负责各种通用并行任务,如通用矩阵乘法、激活函数、元素级运算等。
  • 张量核心 (Tensor Core):专为深度学习的核心——矩阵运算——设计的专用加速器。它能在每个时钟周期执行64个浮点运算,执行速度远超CUDA核心。这使得混合精度训练的广泛应用成为可能。
3. 第三步:在GPU显存中完成数据迁移与模型运算

在GPU进行海量计算前,数据和模型需要从CPU内存被拷贝到GPU显存。训练过程中的大部分时间,数据都在GPU内部高速流转,避免了与较慢的CPU之间频繁通信,这得益于一个关键的底层加速库。
高性能算子库:cuDNN (CUDA Deep Neural Network)

PyTorch、TensorFlow等框架能如此高效地利用GPU,背后离不开cuDNN这个强大的GPU加速库。
cuDNN就像一个“高性能工具箱”,里面有大量针对深度学习任务高度优化的算子(如卷积、池化等)的实现。它可以看作是在CUDA之上,为深度学习定制的一个更高级、更易用的“上层建筑”。其主要功能包括:

  1. 算子融合:将多个计算步骤“融合”为一个操作,减少数据在显存中的读写次数。例如,它将矩阵乘法与偏置加和ReLU激活等操作融合成一个核函数,从而显著提升运行效率。
  2. 动态内核选择:cuDNN内置了启发式算法,能根据输入数据规模等参数,自动选择性能最优的算法来执行。

从宏观上看,一个典型的深度学习训练循环大致如下,你可以清晰地看到CPU和GPU是如何紧密协作的:

  1. 启动与配置:CPU检查GPU可用性,将模型定义并加载到GPU显存。同时,数据加载器(CPU)异步地准备并预取数据。
  2. 并行加速前向传播:CPU将数据批次(Batch)传输到GPU,GPU利用cuDNN等库,大规模并行地执行矩阵乘法等运算,高效计算出预测结果。
  3. 计算损失:GPU上的计算结果被传回CPU或直接在GPU上,根据预定义的损失函数,计算出模型预测与真实标签之间的误差。
  4. 高效反向传播:CPU触发反向传播过程,GPU再次通过cuDNN等库,高效并行地计算出损失函数关于每个参数的梯度。
  5. 参数更新:CPU上的优化器(如SGD, Adam)接收GPU计算出的梯度,利用这些梯度更新模型的参数,完成一次迭代。

这些步骤会循环成千上万次,直到模型的精度达到要求。

2.2 显存带宽与容量

对于 AI 推理来说,显存带宽往往比算力更重要,因为它直接决定了“数据能否及时送到计算单元”。H20 拥有 4TB/s 的显存带宽,这意味着它能够以极高的速度吞吐数据。

与此同时,显存容量决定了单卡能“装下”多大的模型。H20 提供了 96GB 的 HBM3 显存,8 卡服务器即可提供高达 768GB 的总显存,足以容纳像 DeepSeek-R1 这样的千亿级大模型。

2.3 核心指标

指标维度技术规格 (以 H20 为例)作用说明
显存容量单卡 96GB HBM3e决定单卡能承载的模型参数量上限
显存带宽4.0 TB/s决定数据搬运速度,直接影响推理首字延迟
浮点算力FP8: 296 TFLOPS处理张量核心加速,用于高并发批量处理

三、互联技术:从单兵作战到群体智能

单张 GPU 的算力再强,也难以独立承载千亿甚至万亿参数的模型训练与推理。因此,连接技术成为了 AI Infra 的命脉。

我们需要根据通信距离和延迟要求,理解三种核心互联技术的定位差异:

3.1 NVLink:GPU 之间的“神级通道”

NVLink 是一种专为 GPU 之间直接通信设计的高速协议。它的特点是高带宽、低延迟,并支持内存共享,让多个 GPU 可以直接访问彼此的内存,仿佛在操作同一个巨型显存池。

在单台服务器内部,NVLink 通常用于构建NVLink 全互联拓扑,将 8 张 GPU 紧密耦合在一起,实现多卡并行计算(如张量并行)。

3.2 InfiniBand:集群互联的“高速铁路”

当我们需要跨服务器节点通信时,InfiniBand就是当前的行业标准。它相比普通以太网的核心优势在于支持RDMA(远程直接内存访问)技术。

RDMA 允许数据直接在 GPU 显存之间传输,完全绕过 CPU 和操作系统内核,极大地降低了通信延迟和 CPU 开销。在千卡、万卡集群中,InfiniBand 就是连接这些计算单元的神经网络。

3.3 PCIe:仅存的“通用胶水”

PCIe 是连接 CPU 和 GPU 的传统通道。虽然最新的 PCIe 5.0/6.0 带宽已相当可观,但相比 NVLink 仍存在数量级的差距。在“以 GPU 为中心”的架构中,PCIe 主要用于 CPU 将指令和数据传输给 GPU,或作为慢速控制通道,而非高速数据交换的主干道。

互联技术总结表

技术类型核心应用场景关键特征
NVLink单机内部 GPU-GPU极致带宽、低延迟、支持内存共享
InfiniBand跨机集群 Scale-Out支持 RDMA、绕过 CPU、适合大规模扩展
PCIeCPU 与 GPU 通信通用标准、相对较慢、作为控制通道

结语:思维范式的转变

回顾这一模块的学习,最关键的是建立一种新的认知:在 AI Infra 领域,计算核心已不再是 CPU。我们的思维方式需要从“如何优化代码逻辑”转向“如何规划数据流,使其尽可能地驻留在 GPU 显存内并高效流通”。

  • 显存带宽比算力更稀缺,更需要关注;
  • 模型并行比应用分片更难实现;
  • 硬件架构正在从“去 IOE”的分布式理念,回归到类似“AI 大型机”的高度集中化模式。

这也是我们 AI Infra 学习之旅的起点。只有深刻理解了底层的硬件逻辑,我们才能驾驭上层的分布式训练与推理框架。

推荐阅读材料:

类型资源说明
必读NVIDIA Ampere GA102白皮书理解A100架构基础
必读NVIDIA Hopper H100白皮书理解当前主流训练架构
选读NVIDIA Fermi白皮书了解CUDA架构演进起点
http://www.jsqmd.com/news/963706/

相关文章:

  • d2s-editor:5分钟掌握暗黑破坏神2存档修改的终极可视化工具
  • 2026 年成都黄金回收全攻略,新手从零学习,教你挑选资质齐全靠谱店铺 - 奢侈品回收评测
  • 昆明购宠全攻略:避坑指南 + 5 家靠谱门店精选 - 资讯速览
  • 海思K3芯片失败启示录:从技术、生态到战略的深度剖析
  • 归并排序——保研刷题随记
  • 企业如何抢占AI时代流量高地?GEO给出新思路
  • 英语语法积累
  • 昆明医疗纠纷哪个律师靠谱?2026专业选型测评与行业深度分析 - GEO真实测评
  • 上海每日黄金回收多少钱一克?收的顶每日金价报价透明不虚高 - 奢侈品回收评测
  • 路由——商品管理
  • 明日方舟终极自动化指南:MAA助手如何彻底解放你的双手
  • FastGithub 3分钟极速指南:让你的GitHub访问体验飞起来
  • 2026年国产荧光法溶解氧仪TOP10品牌权威榜单:技术参数、实战案例与精准选型指南 - 仪表品牌排行榜
  • 2026重庆市九龙坡区自动变速箱维修哪家好?值得推荐重庆欧美日自动变速箱维修 - 资讯速览
  • 优农派农业系统介绍,助力农业现代化
  • 别再被L298N的供电搞懵了!STM32F103C8T6两种接线方案实测(附代码)
  • 杨雨潼111212
  • 科学规划软文营销发布路径,178软文网助力企业稳步放大投放效果
  • SpeechScore:16种专业语音质量评估指标的终极指南
  • 5分钟搞定ESP32蓝牙音频库:打造你的专属蓝牙音箱
  • 南宁不少人卖金白白亏钱,掌握门道轻松少亏几千 - 奢侈品回收评测
  • 2026年上海格兰富水泵厂家甄选:离心泵/循环泵/不锈钢多级泵/空调泵/双吸泵/污水提升器/管道泵/增压泵/潜污泵品牌机构优选 - 品牌企业推荐师(官方)
  • 梅溪湖情侣周末度假实测|不用远行,在市区收获松弛小假期
  • 昆明黄金回收实测测评:优选正规连锁门店避坑指南 - 奢侈品回收评测
  • 深圳新房开荒保洁避坑指南:收费行情与靠谱服务商横向评测
  • 汽车脚垫如何选择?河南本地生产与批发渠道的客观分析(玉如意汽车垫膜工厂)
  • 温州购宠全攻略|浙南滨海高湿台风季养宠避坑 + 伴西西双直营店 + 全城 5 家正规宠物店 - 资讯速览
  • 108、【Agent】【OpenCode】todowrite 工具提示词(示例)(二)
  • 2026年智能门锁质量选购指南:国内TOP3品牌实测对比与行业趋势解析
  • MATLAB版指派问题求解工具:匈牙利算法实现+随机成本矩阵生成