| 精度 | 尾数 | 指数 | 峰值算力 | 相对 FP32 | 适用场景 |
|---|---|---|---|---|---|
| FP32 | 23bit | 8bit | ~19.5 TFLOPS | 1× | 通用计算、高精度需求 |
| TF32 | 10bit | 8bit | ~156 TFLOPS | 8× | AI 训练 / 推理(默认) |
| FP16 | 10bit | 5bit | ~312 TFLOPS | 16× | 极致速度、需混合精度代码 |
| BF16 | 7bit | 8bit | ~312 TFLOPS | 16× | 大模型训练、范围优先 |
TF32 是针对 FP32 输入时进行 MMA 时的一种无修改加速方法。通过将尾数为截断,将位宽降低至 19 bit,在 A100 TensorCore 上吞吐由 19.5 TFLOPS 提升至 156 TFLOPS,FP16 / BF16 TensorCore 的吞吐是 312 TFLOPS(是 TF32 的 2 倍,FP32 的 16 倍)。

