当前位置：首页 > news >正文

AI Infra 硬件体系与编程模型：1. 硬件体系基础

news 2026/7/28 20:22:57

AI Infra 从零开始：为什么大模型时代“以GPU为中心”是唯一解？

从 CPU 到 GPU，不只是一次硬件的更替，更是一场计算范式的革命。

引言：一场静默的硬件革命

在传统后台开发中，我们早已习惯了“以 CPU 为中心”的思维模式。高并发、微服务、多线程，这些是我们解决问题的核心武器。然而，随着大模型的爆发，这套方法论正在被颠覆。

当第一次看到“生成一个 token 的耗时 = 模型参数大小 ÷ 显存带宽”这个公式时，我意识到硬件设计的逻辑已经发生了根本性的改变。本文作为AI Infra 学习笔记的第一篇，将深入剖析现代 GPU 硬件架构，理解为什么 AI 时代必须“以 GPU 为中心”。

一、为什么 GPU 成为 AI 的核心？

1.1 从“逻辑事务”到“高吞吐计算”

传统基础设施以 CPU 为核心，处理的是逻辑事务（如 Web 服务、数据库操作），瓶颈通常在于网络 I/O 和 CPU 核心数量。而 AI Infra 的核心任务变成了高吞吐的浮点计算——即大规模的矩阵乘法运算。

CPU的一个核心就像一个全能教授，什么问题都能解，但培养成本高（占用芯片面积大）。GPU的一个核心像一个小学生，只会做简单算术，但可以请几千个小学生同时算，总速度远超一位教授。

深度学习的核心操作，如全连接层、卷积层、循环神经网络（RNN）的变体，其底层几乎都可以归结为大规模矩阵乘法和张量运算。

举个例子：一个简单的矩阵乘法 C = A × B，如果矩阵维度是1000x1000，那么就需要进行10亿次乘加运算。这些运算的特点是：
- 计算模式相同：每个输出元素的计算公式完全一样（乘积累加）。
- 数据独立：计算 C[0][0] 和 C[0][1] 所需的数据互不干扰，可以并行执行。
- 算术密度高：相对于数据搬运，算术操作本身很多。

这正是GPU的用武之地。它的数千个核心可以同时独立计算 C 矩阵的不同元素，实现天量的并行加速。

这个大模型训练和推理的时代，计算密度已经达到了传统 CPU 无法承受的程度。当大模型每次生成一个 token，都需要读取全量的模型参数时，计算和通信都必须“Offload”到 GPU 内完成，CPU 则退居二线，扮演起“数据搬运工”的角色。

1.2 计算密度的量化分析

让我们通过一个关键公式来理解这个问题：

生成一个 token 的耗时 ≈ 模型参数大小 ÷ 显存带宽

为什么是这个公式？原因在于大模型的推理过程是“访存密集”而非“计算密集”的。对于每单个 token 的处理，需要对每个参数执行一次乘加运算，这时ALU（算术逻辑单元）往往在等待数据加载，因此性能瓶颈就落在了显存带宽上。

这里有一个直观的案例对比。以DeepSeek-R1-671B-A37B-FP8模型为例：

在 H20 GPU 上：参数大小 37B × 1byte ÷ 4000GB/s ≈9ms/token
在 CPU 上：参数大小 37B × 1byte ÷ 64GB/s ≈578ms/token

这个 64 倍的差距，就是为什么我们不能用传统服务器运行大模型的根本原因。CPU 处理一个 token 的时间，GPU 已经处理完一个句子了。

二、现代 GPU 的关键架构特征

理解了“为什么是 GPU”之后，我们需要进一步拆解，看看现代 AI 芯片（以 H20 为例）是如何设计以满足 AI 计算需求的。

2.1 内部构成

下图是一张NVIDIA GPU核心的内部整体架构图，由多个GPC (图形处理集群)组成

GPC (图形处理集群)
GPC是最高级的硬件块，基本可视为一个完整的、独立的GPU核心。当代旗舰GPU通常拥有6-12个GPC。
它集成了光栅引擎和光栅处理单元（ROP），负责将计算后的3D图形数据（由顶点构成）转换为可显示的2D像素图像。

我们进一步观察每个GPC的内部构成，它又由多个TPC构成：

TPC (纹理处理集群)
介于GPC和SM之间的中间层级，负责纹理相关的处理，每个TPC通常包含2个SM。

从上图可以发现每个TPC由两个流式多处理器 (SM)组成

SM是GPU最基本的计算单元，负责执行大部分运算，堪称NVIDIA GPU的“计算心脏”。一个SM内部集成了多种功能模块：

CUDA核心：执行通用计算任务的最小单元，负责浮点和整数运算。在当代架构中，每个SM拥有128个CUDA核心。
张量核心 (Tensor Core)：专为深度学习设计的矩阵运算加速器，是实现AI计算的关键。当代架构中，每个SM通常集成4个。
RT核心 (RT Core)：仅存在于GeForce显卡中，用于加速实时光线追踪。在Ada架构中，每个SM包含1个第三代RT Core。
特殊功能单元 (SFU)：加速特定复杂数学运算，如三角函数、倒数平方根等。
加载/存储单元 (LD/ST)：负责处理GPU核心与内存之间的数据加载和存储。
线程束调度器 (Warp Scheduler)：调度和管理一组32个线程的指令执行。GPU以“线程束”为基本调度单位，使用SIMT架构实现高效并行。
L1缓存/共享内存：内核内部的极高速暂存存储器，供SM内所有核心共用，通过配置可以充当L1数据缓存或用户直接管理的共享内存。

此外，外部还有内存与存储子系统

显存 (VRAM)：全局大容量存储空间，即显卡板载的内存。专业用途（如H100）使用超高带宽的HBM3/3e内存，消费级（如RTX 40系）则使用GDDR6X内存。
L2缓存：连接SM与显存，能被所有SM共享，用于缓存频繁访问的数据，大幅降低对较慢显存的访问次数。A100的L2缓存容量为40MB，而Ada架构则将其容量提升了16倍。
显存控制器 (Memory Controller)：管理L2缓存与显存之间的数据流。

2.2 GPU 进行 AI 计算的原理

简单来说，GPU会像一台由CPU指挥的“超级计算机”，通过CUDA将深度学习这类庞大的并行计算任务，拆解成无数个小任务，在它成千上万的核心上同时执行，从而极大地加速训练。

GPU与CPU协同工作，才能最高效地完成训练。下图清晰地展示了它们各自的分工：

接下来，让我们深入了解训练过程中具体发生了什么。

1. 第一步：以核函数 (Kernel) 定义任务

CPU是总指挥，它不直接参与GPU的大规模运算，而是通过一个叫核函数(Kernel)的指令，告知GPU要执行的任务。核函数是CPU上的一段代码，用于定义GPU上一个线程要执行的操作。以最简单的向量加法为例，CPU上的核函数启动代码如下：

# 此代码运行在CPU上，用于启动GPU上的核函数# threads_per_block 和 blocks_per_grid 定义了任务如何被分解vector_add_kernel[blocks_per_grid,threads_per_block](a,b,c)

这段代码将启动GPU上的 vector_add_kernel 核函数。开发者需要精心设计 blocks_per_grid 和 threads_per_block，将庞大的并行工作拆解为数千甚至上百万个小任务，并分配到GPU上数以千计的CUDA核心上高效运行。

2. 第二步：在GPU上执行大规模并行计算

核函数启动后，GPU的数千个计算核心便开始并行执行，这正是加速训练的关键。其中，现代NVIDIA GPU（如Volta架构及之后）拥有两类核心来处理不同类型的任务：

CUDA核心 (CUDA Core)：GPU中的通用计算主力，它像一个基础计算单元，负责各种通用并行任务，如通用矩阵乘法、激活函数、元素级运算等。
张量核心 (Tensor Core)：专为深度学习的核心——矩阵运算——设计的专用加速器。它能在每个时钟周期执行64个浮点运算，执行速度远超CUDA核心。这使得混合精度训练的广泛应用成为可能。

3. 第三步：在GPU显存中完成数据迁移与模型运算

在GPU进行海量计算前，数据和模型需要从CPU内存被拷贝到GPU显存。训练过程中的大部分时间，数据都在GPU内部高速流转，避免了与较慢的CPU之间频繁通信，这得益于一个关键的底层加速库。
高性能算子库：cuDNN (CUDA Deep Neural Network)

PyTorch、TensorFlow等框架能如此高效地利用GPU，背后离不开cuDNN这个强大的GPU加速库。
cuDNN就像一个“高性能工具箱”，里面有大量针对深度学习任务高度优化的算子（如卷积、池化等）的实现。它可以看作是在CUDA之上，为深度学习定制的一个更高级、更易用的“上层建筑”。其主要功能包括：

算子融合：将多个计算步骤“融合”为一个操作，减少数据在显存中的读写次数。例如，它将矩阵乘法与偏置加和ReLU激活等操作融合成一个核函数，从而显著提升运行效率。
动态内核选择：cuDNN内置了启发式算法，能根据输入数据规模等参数，自动选择性能最优的算法来执行。

从宏观上看，一个典型的深度学习训练循环大致如下，你可以清晰地看到CPU和GPU是如何紧密协作的：

启动与配置：CPU检查GPU可用性，将模型定义并加载到GPU显存。同时，数据加载器（CPU）异步地准备并预取数据。
并行加速前向传播：CPU将数据批次（Batch）传输到GPU，GPU利用cuDNN等库，大规模并行地执行矩阵乘法等运算，高效计算出预测结果。
计算损失：GPU上的计算结果被传回CPU或直接在GPU上，根据预定义的损失函数，计算出模型预测与真实标签之间的误差。
高效反向传播：CPU触发反向传播过程，GPU再次通过cuDNN等库，高效并行地计算出损失函数关于每个参数的梯度。
参数更新：CPU上的优化器（如SGD, Adam）接收GPU计算出的梯度，利用这些梯度更新模型的参数，完成一次迭代。

这些步骤会循环成千上万次，直到模型的精度达到要求。

2.2 显存带宽与容量

对于 AI 推理来说，显存带宽往往比算力更重要，因为它直接决定了“数据能否及时送到计算单元”。H20 拥有 4TB/s 的显存带宽，这意味着它能够以极高的速度吞吐数据。

与此同时，显存容量决定了单卡能“装下”多大的模型。H20 提供了 96GB 的 HBM3 显存，8 卡服务器即可提供高达 768GB 的总显存，足以容纳像 DeepSeek-R1 这样的千亿级大模型。

2.3 核心指标

指标维度	技术规格 (以 H20 为例)	作用说明
显存容量	单卡 96GB HBM3e	决定单卡能承载的模型参数量上限
显存带宽	4.0 TB/s	决定数据搬运速度，直接影响推理首字延迟
浮点算力	FP8: 296 TFLOPS	处理张量核心加速，用于高并发批量处理

三、互联技术：从单兵作战到群体智能

单张 GPU 的算力再强，也难以独立承载千亿甚至万亿参数的模型训练与推理。因此，连接技术成为了 AI Infra 的命脉。

我们需要根据通信距离和延迟要求，理解三种核心互联技术的定位差异：

3.1 NVLink：GPU 之间的“神级通道”

NVLink 是一种专为 GPU 之间直接通信设计的高速协议。它的特点是高带宽、低延迟，并支持内存共享，让多个 GPU 可以直接访问彼此的内存，仿佛在操作同一个巨型显存池。

在单台服务器内部，NVLink 通常用于构建NVLink 全互联拓扑，将 8 张 GPU 紧密耦合在一起，实现多卡并行计算（如张量并行）。

3.2 InfiniBand：集群互联的“高速铁路”

当我们需要跨服务器节点通信时，InfiniBand就是当前的行业标准。它相比普通以太网的核心优势在于支持RDMA（远程直接内存访问）技术。

RDMA 允许数据直接在 GPU 显存之间传输，完全绕过 CPU 和操作系统内核，极大地降低了通信延迟和 CPU 开销。在千卡、万卡集群中，InfiniBand 就是连接这些计算单元的神经网络。

3.3 PCIe：仅存的“通用胶水”

PCIe 是连接 CPU 和 GPU 的传统通道。虽然最新的 PCIe 5.0/6.0 带宽已相当可观，但相比 NVLink 仍存在数量级的差距。在“以 GPU 为中心”的架构中，PCIe 主要用于 CPU 将指令和数据传输给 GPU，或作为慢速控制通道，而非高速数据交换的主干道。

互联技术总结表

技术类型	核心应用场景	关键特征
NVLink	单机内部 GPU-GPU	极致带宽、低延迟、支持内存共享
InfiniBand	跨机集群 Scale-Out	支持 RDMA、绕过 CPU、适合大规模扩展
PCIe	CPU 与 GPU 通信	通用标准、相对较慢、作为控制通道

结语：思维范式的转变

回顾这一模块的学习，最关键的是建立一种新的认知：在 AI Infra 领域，计算核心已不再是 CPU。我们的思维方式需要从“如何优化代码逻辑”转向“如何规划数据流，使其尽可能地驻留在 GPU 显存内并高效流通”。

显存带宽比算力更稀缺，更需要关注；
模型并行比应用分片更难实现；
硬件架构正在从“去 IOE”的分布式理念，回归到类似“AI 大型机”的高度集中化模式。

这也是我们 AI Infra 学习之旅的起点。只有深刻理解了底层的硬件逻辑，我们才能驾驭上层的分布式训练与推理框架。

推荐阅读材料：

类型	资源	说明
必读	NVIDIA Ampere GA102白皮书	理解A100架构基础
必读	NVIDIA Hopper H100白皮书	理解当前主流训练架构
选读	NVIDIA Fermi白皮书	了解CUDA架构演进起点

查看全文

http://www.jsqmd.com/news/963706/