当前位置：首页 > news >正文

深度拆解：从 FP16 到 INT4，大语言模型（LLM）低比特量化的数学本质

news 2026/6/7 0:52:52

摘要

随着大语言模型（LLM）的参数量动辄走向百亿（10B）甚至千亿（100B）级别，GPU 的显存容量（VRAM）和内存带宽（Memory Bandwidth）成为了制约大模型落地部署的最高红线。为了在有限的硬件资源下实现高吞吐、低延迟的推理，模型量化（Quantization）技术成为了云原生 AI 基础设施中不可或缺的优化手段。本文将深入剖析线性量化的数学映射模型、对称与非对称量化的边界重塑，以及大模型量化在工程落地中的精度妥协。

一、为什么大模型推理需要量化？

在传统的深度学习训练中，为了保证梯度的精确传递，模型权重通常采用FP32（单精度浮点数，4 字节）或FP16/BF16（半精度浮点数，2 字节）存储。

对于一个 700 亿参数（70B）的模型，如果使用 FP16 存储，单是加载模型权重本身就需要消耗：

70×109×2 字节≈140 GB

的显存。这已经远远超出了单张主流工业级显卡（如标准 80GB 显存）的物理上限，必须采用昂贵的跨卡张量并行（Tensor Parallelism）。

更为严重的是，大模型在 Decoding（生成）阶段属于典型的内存带宽受限型（Memory-Bound）任务。CPU/GPU 的计算核心大部分时间都在等待从显存中读取权重数据。

如果能将 16 位的浮点数压缩为INT8（8位整数，1字节）甚至INT4（4位整数，0.5字节）：

显存暴降：模型体积直接压缩至原来的 1/2 或 1/4，70B 模型仅需约 35GB 显存即可运行，单卡部署成为可能。
带宽释放：每次时钟周期传输的数据量翻倍，极大地缓解了显存带宽瓶颈。
算力加速：现代 GPU/NPU 内部集成了极为强悍的整数计算单元（如张量核心/Tensor Cores 中的 INT8/INT4 矩阵乘法），其吞吐量远超浮点数计算。

二、线性量化的数学模型：从连续到离散

量化的本质，是建立一个映射函数 f(x)，将一个高精度、连续的浮点数区间（Min/Max）映射到一个低精度的离散整数区间（如 INT8 的 [−128,127]）。

最经典的映射方法是线性量化（Linear Quantization），其核心公式如下：

Q=round(SX)+Z

Xapprox=S×(Q−Z)

其中：

X：输入的真实高精度浮点值（如 FP16）。
Q：量化后的低精度整数值（如 INT8）。
S（Scale）：缩放因子，一个高精度的浮点数，决定了离散刻度之间的步长。
Z（Zero Point）：零点值，一个整数，确保真实浮点数中的0.0在量化后能精准对应到一个整数上（这对于 Padding 零矩阵等操作至关重要）。
round()：四舍五入取整函数。

三、对称量化与非对称量化的边界博弈

根据零点值 Z 是否固定为 0，线性量化在工程上衍生出了两种主流策略：

1. 非对称量化（Asymmetric Quantization）

非对称量化将浮点数的实际最小值 Xmin 和最大值 Xmax 精准映射到整数的边界。

其参数计算公式为：

S=Qmax−QminXmax−Xmin

Z=round(S−Xmin)+Qmin

特点：对数据的利用率极高。如果大模型的激活值（Activation）全部为正数（例如经过了 ReLU 或类似的激活函数），非对称量化可以把整个 INT8 空间全部留给正数部分，精度保留最好。
代价：由于 Z=0，在进行矩阵乘法（Y=W⋅X）时，公式中会引入额外的 Z 相关偏置项项，导致底层硬件的计算流水线变得更加复杂。

2. 对称量化（Symmetric Quantization）

对称量化强制要求真实的0.0映射后必须是整数0（即 Z=0）。它直接将浮点数的最大绝对值 max(∣Xmin∣,∣Xmax∣) 映射到整数的对称边界。

其参数计算公式简化为：

S=Qmaxmax(∣Xmin∣,∣Xmax∣)

Z=0

特点：反量化公式简化为 X=S×Q。在矩阵乘法中，可以直接把 Scale 提取到矩阵外进行标量乘法，硬件厂商（如 NVIDIA TensorRT）可以实现极致的硬件指令加速。
代价：如果数据分布严重偏向一侧（如 [0,100]），对称量化依然会强行在负数侧预留 [−100,0] 的空间，导致离散刻度变粗，造成显著的量化精度损失。

四、大模型量化的特殊挑战：离群值（Outliers）

在将量化应用于 Transformer 架构（如 LLaMA、GPT）时，研究人员发现了一个独特的现象：大模型在参数量超过 6.7B 后，激活值（Activations）中某些特定通道（Channels）会突变出极大的浮点数，这些值被称为离群值（Outliers）。

尽管这些离群值仅占全部 Token 的 0.1% 左右，但它们的绝对值往往比普通值大出 10~100 倍。

长尾灾难：如果使用传统的全局对称量化，为了容纳这些极大的离群值，缩放因子 S 必须变得极大。这直接导致绝大多数正常的、密集分布的小浮点数在除以 S 后，全部被四舍五入截断成了0或1（信息丢失），模型瞬间变得语无伦次。

工业界的破局方案

为了保住这 0.1% 却决定了模型逻辑命脉的离群值，业界演进出了不同的高阶量化算法：

SmoothQuant：在推理前，通过一个数学变换，将激活值（Activation）中的离群值权重“平滑”分摊到相对稳定的模型权重（Weight）中，从而让两边的分布都趋于平缓，随后即可安全地运行 INT8 线性量化。
AWQ / GPTQ（权重仅量化）：保持激活值为 FP16，只将磁盘上的静态模型权重压缩为 INT4。在计算时，通过硬件层面的「运行时解压」，将 INT4 瞬间还原为 FP16 参与矩阵乘法。由于避开了多变的激活值，这种方案在 4-bit 级别依然能完美保持大模型的原本精度。

五、总结

大模型量化技术在本质上是用离散的整数空间去拟合高维连续的浮点时空，是云原生 AI 算力高密度落地的工程核心。
对称量化用部分精度的牺牲换取了硬件指令集的最简加速，而非对称量化则通过灵活移动零点（Zero Point）实现了更紧凑的空间拟合。
攻克大模型低比特（INT4/INT32）量化的关键，在于如何设计精妙的算法（如 SmoothQuant、AWQ）去对抗和保护 Transformer 架构中天然产生的特异性离群值，从而在吞吐量翻倍与精度不崩盘之间划定最完美的工程分水岭。

查看全文

http://www.jsqmd.com/news/964882/