当前位置：首页 > news >正文

AWQ：激活感知权重量化——让大语言模型更轻更快

news 2026/6/14 5:11:45

论文：AWQ: Activation-aware Weight Quantization for LLM Compression and Acceleration
作者：Ji Lin, Jiaming Tang, Haotian Tang 等（MIT、上海交大、清华大学）
发表：NeurIPS 2023 / MLSys 2024（荣获 MLSys 2024 最佳论文奖）

背景：大模型的"瘦身"困境

随着ChatGPT、Llama等大语言模型（LLM）的崛起，模型规模呈指数级增长。一个700亿参数的模型，以FP16格式存储需要约140GB显存，这让普通开发者甚至很多企业望而却步。模型量化——将高精度浮点数（如FP16）转换为低精度整数（如INT4/INT8）——成为解决这一问题的关键技术。

然而，传统的量化方法往往面临两难困境：

激进量化（如INT3）：模型体积大幅压缩，但精度损失严重
保守量化（如INT8）：精度保持较好，但压缩率有限

AWQ（Activation-aware Weight Quantization）正是为解决这一矛盾而生。

核心洞察：权重并非生而平等

AWQ的核心发现可以概括为一句话：大语言模型中只有0.1%-1%的权重是"显著权重"（salient weights），保护这些权重就能大幅减少量化误差。

关键问题：如何找到显著权重？

传统思路是观察权重分布本身，但AWQ团队提出了一个反直觉的洞察：应该观察激活分布（activation distribution）而非权重分布。

原理：权重通道对应的激活幅度越大，说明该通道处理的特征越重要。因此，通过分析模型运行时的激活统计信息，可以精准定位哪些权重通道对模型性能至关重要。

技术方案：硬件友好的保护机制

挑战：混合精度的硬件噩梦

最简单的保护方案是将显著权重保持FP16精度，其余量化为低比特。但这会导致混合精度计算，在GPU/CPU上极难高效实现，需要复杂的内存对齐和计算图优化。

解决方案：通道缩放（Per-Channel Scaling）

AWQ通过数学分析发现：放大显著权重通道的数值，可以等效降低其相对量化误差。具体来说，对于显著通道，AWQ会寻找一个最优的缩放系数s ss，使得：

Quantization Error ∝ w s \text{Quantization Error} \propto \frac{w}{s}Quantization Error∝sw

通过逐通道缩放，AWQ实现了"隐式保护"显著权重的效果，同时保持统一的低比特精度（如全INT4），完全兼容现有硬件的SIMD指令集。

自动搜索最优缩放

AWQ设计了一个数据驱动的优化流程，在小规模校准集上自动搜索最优缩放系数，无需反向传播或模型重建。这意味着：

量化速度快（分钟级）
不破坏模型的泛化能力
避免过拟合到校准数据

性能表现：精度与速度的双赢

量化精度对比

在LLaMA、OPT等模型家族上的实验表明，AWQ显著优于同期方法：

方法	配置	WikiText2 PPL（越低越好）
GPTQ	INT4	~5.75
AWQ	INT4	~5.60
FP16（原始）	-	~5.47

在指令微调模型（如Vicuna）和多模态模型（如OpenFlamingo）上，AWQ同样表现出色，这是首个成功量化多模态LLM的工作。

推理加速

AWQ团队同步开发了TinyChat推理框架，通过：

内核融合（减少DRAM访问）
4-bit权重高效打包
运行时反量化优化

实现了相比HuggingFace FP16实现3倍以上的加速，在桌面GPU和移动GPU（如NVIDIA Jetson Orin）上均表现优异。值得注意的是，AWQ首次实现了在移动GPU上部署700亿参数的Llama-2模型。

AWQ vs 其他量化方法

当前主流的LLM量化方案各有侧重：

方法	类型	特点	适用场景
AWQ	权重量化	激活感知，保护显著权重，硬件友好	边缘部署、低延迟推理
GPTQ	权重量化	基于Hessian矩阵的层-wise量化，精度高但较慢	追求极致精度
GGUF	权重量化	llama.cpp生态，跨平台支持好	CPU推理、多平台
SmoothQuant	权激活量化	W8A8，平滑激活异常值	大batch服务
FP8	权激活量化	硬件原生支持，几乎无损	新一代GPU（H100等）