当前位置：首页 > news >正文

CUDA性能指标

news 2026/4/12 10:35:39

带宽

CUDA C++ Best Practices Guide Ch9：性能指标

理论带宽（Theoretical Bandwidth）

文档用 Tesla V100 举例，公式是：

理论带宽= 内存时钟频率(Hz) × 总线位宽(bytes) × 2（双倍速率）

V100：0.877×10⁹ × (4096/8) × 2 ÷ 10⁹ = 898 GB/s

这是硬件物理上限，你的 kernel 永远无法超过这个值。

有效带宽（Effective Bandwidth）

有效带宽= (读字节数 Br + 写字节数 Bw) ÷ 10⁹ ÷ 时间(s)

内存利用率= 有效带宽 / 理论带宽

这个比值是衡量内存优化效果最直接的数字。比值低，说明内存访问模式有问题。

矩阵乘法有效带宽计算公式

对于矩阵运算C=A×BC = A \times BC=A×B（其中A∈RM×KA \in \mathbb{R}^{M \times K}A∈RM×K,B∈RK×NB \in \mathbb{R}^{K \times N}B∈RK×N），其有效带宽计算如下：

1. 核心公式

BWeffective=(M×K+K×N+M×N)×sizeof(type)109×Time(s)BW_{effective} = \frac{(M \times K + K \times N + M \times N) \times \text{sizeof(type)}}{10^9 \times \text{Time}(s)}BWeffective=109×Time(s)(M×K+K×N+M×N)×sizeof(type)

2. 参数说明

符号	含义	备注
M,K,NM, K, NM,K,N	矩阵维度	AAA为M×KM \times KM×K,BBB为K×NK \times NK×N,CCC为M×NM \times NM×N
sizeof(type)\text{sizeof(type)}sizeof(type)	数据类型大小	`float`为 4 字节,`half/FP16`为 2 字节
Time\text{Time}Time	算子执行耗时	单位：秒 (s)
10910^9109	单位转换系数	将 Byte/s 转换为 GB/s

3. 计算示例 (2048×20482048 \times 20482048×2048, Float32)

假设M=K=N=2048M=K=N=2048M=K=N=2048，数据类型为float32(4 bytes)，实测耗时1ms1\text{ms}1ms(0.001s0.001\text{s}0.001s):

读取 A + B:2048×2048×4×2=33,554,4322048 \times 2048 \times 4 \times 2 = 33,554,4322048×2048×4×2=33,554,432Bytes
写入 C:2048×2048×4=16,777,2162048 \times 2048 \times 4 = 16,777,2162048×2048×4=16,777,216Bytes
总访存量:50,331,64850,331,64850,331,648Bytes (≈50.3\approx 50.3≈50.3MB)

代入公式：
BWeffective=50,331,648109×0.001=50.33 GB/sBW_{effective} = \frac{50,331,648}{10^9 \times 0.001} = 50.33 \text{ GB/s}BWeffective=109×0.00150,331,648=50.33GB/s

注意：
矩阵乘法的理论计算强度极高（O(N)O(N)O(N)级别），因此其性能通常受限于GFLOPS（计算受限），而非带宽。在 A100/H100 等卡上，GEMM 的有效带宽通常远低于显卡的理论峰值带宽。

GFLOPS

GFLOPS(Giga Floating Point Operations Per Second)：
例如，矩阵乘法 C = A × B，其中 A 是 M×K，B 是 K×N：

C 的每个元素需要 K 次乘法 + K 次加法 = 2K 次浮点运算
C 共有 M×N 个元素
总浮点运算量 = 2 × M × N × K 次

GFLOPS = 浮点运算次数 / 时间(s) / 1e9

带宽利用率和OPS对比

维度	有效带宽 (Bandwidth)	GFLOPS
全称	Effective Bandwidth	Giga Floating-point Operations Per Second
衡量目标	内存/显存的吞吐能力	计算核心 (ALU/CUDA Core)的吞吐能力
单位	GB/s (每秒十亿字节)	GFLOPS (每秒十亿次浮点运算)
关注点	数据搬运的速度（物流）	数据加工的速度（生产）
性能瓶颈	访存受限 (Memory Bound)	计算受限 (Compute Bound)
典型算子	Matrix Copy, ReLU, Element-wise Add	Matrix Multiplication (GEMM), Convolution
优化核心	减少合并访存、提升缓存命中率	提高运算单元利用率、利用 Tensor Core