当前位置：首页 > news >正文

PCIe与HBM

news 2026/7/10 8:48:48

PCIe(Peripheral Component Interconnect Express) 和HBM(High Bandwidth Memory) 是计算机系统中两种完全不同的互连技术，它们的设计目标、应用场景和性能特征有着本质的区别。

简单来说：PCIe 是用来连接“外部设备”的（如显卡、硬盘、网卡），而 HBM 是用来给芯片（如 GPU、AI 加速器）提供“超高速内部内存”的。

以下是两者的深度对比分析：

1、核心定义与定位

特性	PCIe	HBM
全称	Peripheral Component Interconnect Express	High Bandwidth Memory
本质	总线接口标准(Bus Interface)	内存封装技术(Memory Packaging Technology)
主要用途	连接 CPU 与外设（显卡、SSD、网卡、FPGA等）	为 GPU、AI 芯片提供紧邻的大容量、高带宽显存
连接距离	板卡级或机箱级连接（几厘米到几十厘米）	芯片级连接（微米级，直接堆叠在逻辑芯片旁）
典型用户	所有现代电脑、服务器	高端显卡 (NVIDIA H100/A100, AMD MI300)、高性能计算

这是两者最显著的差异点。HBM 的带宽通常是 PCIe 的几十倍甚至上百倍，但延迟特性不同。

(以当前主流的 PCIe 5.0 x16 和 HBM3/HBM3e 为例)

指标	PCIe 5.0 x16(主流高端接口)	HBM3 / HBM3e(高端 AI 芯片标配)	差距倍数
单向带宽	~64 GB/s	3000 GB/s - 8000+ GB/s(取决于堆叠数和位宽)	HBM 快 50-100 倍
双向带宽	~128 GB/s	6000 GB/s - 16000+ GB/s	-
信号速率	32 GT/s	内部并行传输，等效速率极高	-
物理形态	插槽 + 金手指 (可插拔)	2.5D/3D 堆叠封装 (不可拆卸，与芯片焊死)	-
功耗效率	中等 (需驱动长距离信号)	极高 (短距离传输，每比特能耗低)	-

数据参考：

NVIDIA H100 GPU 拥有3.35 TB/s(3350 GB/s) 的 HBM3 带宽。

即便是最新的 PCIe 5.0 x16 插槽，双向带宽也仅为128 GB/s。

这意味着 GPU 内部访问显存的速度，比它通过 PCIe 从系统内存或硬盘获取数据的速度快20-30 倍。

拓扑结构：点对点串行通信。就像一条多车道的高速公路，数据是一个比特接一个比特（但在多个通道上并行）传输的。

优势：通用性强、扩展性好、支持热插拔、成本低、距离远。

劣势：受限于物理走线长度和信号完整性，带宽提升有瓶颈（虽然每一代都在翻倍，但难以达到内存级的速度）。

瓶颈效应：在 AI 训练中，如果模型太大塞不进 HBM，需要从系统内存通过 PCIe 交换数据，PCIe 带宽往往成为整个系统的瓶颈。

拓扑结构：3D 堆叠。将多个 DRAMdie（裸片）像盖楼一样垂直堆叠，并通过TSV(硅通孔) 技术垂直打通，底部通过Interposer(中介层) 与 GPU 逻辑芯片并排连接。

优势：

极宽的位宽：传统 GDDR6 显存位宽通常为 256-bit 或 384-bit，而 HBM 轻松达到4096-bit甚至8192-bit。位宽越宽，同一时刻吞吐的数据量越大。
极低延迟：因为就在处理器旁边，信号传输距离极短。
节省空间：垂直堆叠节省了主板平面面积。

劣势：成本极其昂贵、制造难度大、发热集中、不可升级（买多少显存就是多少，无法像插内存条那样增加）。

在现代高性能计算（尤其是 AI 大模型训练）中，两者是互补且层级分明的：

第一级（最快）：SRAM (缓存)

第二级（极快）：HBM (显存)

作用：存放正在运行的神经网络模型参数和激活值。
现状：AI 模型越来越大（如千亿参数模型），对 HBM 容量和带宽的需求是指数级的。如果 HBM 不够大，模型就跑不起来；如果 HBM 带宽不够，计算单元就会“饿死”（等待数据）。

第三级（较慢）：系统内存 (DDR5) + PCIe 通道

作用：当模型超过 HBM 容量时，部分数据必须存放在主机的 DDR5 内存中。
瓶颈：数据从 DDR5 内存经过PCIe 总线传输到 GPU 的 HBM 中。此时，PCIe 的速度限制了数据加载的效率。
解决方案：为了缓解这个瓶颈，现在的高端服务器开始使用PCIe 5.0/6.0，甚至采用NVLink(NVIDIA 私有高速互联，带宽远超 PCIe) 来连接多张显卡，或者使用CXL(Compute Express Link) 技术来扩展内存池。