【大模型12步学习路线 · 第11步 · ①原理篇】LLM 量化全景:从 INT4 / NVFP4 / BitNet 1.58 到 KV cache 量化,4× 压缩、3× 加速的工业魔法
【大模型12步学习路线 · 第11步 · ①原理篇】LLM 量化全景:从 INT4 / NVFP4 / BitNet 1.58 到 KV cache 量化,4× 压缩、3× 加速的工业魔法
系列定位:「大模型正确学习顺序」12 步系列第 11 步 · 量化的 ①原理篇。
前置阅读:第 9 步私有化部署 + 第 10 步微调 —— Veri-Copilot 已经有 SGLang + Qwen-Coder + SVA-LoRA。
本篇产出:量化数学本质 +三层量化栈(weight / activation / KV cache)+ 主流方法对比(GPTQ / AWQ / SmoothQuant / GGUF /NVFP4/BitNet 1.58)+ 精度全谱(FP16 → 1.58-bit)+量化与 LoRA 的关键约束+ 中文场景特殊性 + 决策树。
🚀 0. 开场:为什么量化是 LLM 时代最划算的优化?
一个让你震惊的对比:
Llama-70B 在 FP16 下需要 ~140GB VRAM(4 张 A100 80GB);
INT4 量化后只需 ~35GB(单张 RTX 4090 / 5090 或 A100 40GB);
质量损失通常 < 1%。
量化是三大模型压缩技术(量化 / 剪枝 / 蒸馏)中:
- ✅最简单:
load_in_4bit=True一行搞定; - ✅最普遍:Llama / Qwen / DeepSeek 全家桶都有量化版;
- ✅效果最直观:75% 内存减少 + 1-3× 推理加速。
对 Veri-Copilot 的意义:让 Qwen-Coder-14B 从 H100 80GB 走下"神坛",在工程师的 RTX 4060 16GB 笔记本上跑生产。
🧮 1. 量化的数学本质(图解 FP16 → INT4)
1.1 浮点 → 整数的核心公式
把一个 FP16 张量WWW量化成 INT4:
Wint4=round(Wfp16s)+zW_{int4} = \text{round}\left(\frac{W_{fp16}}{s}\right) + zWint4=round(sWfp16)+z
其中:
- sss=scale(缩放因子);
- zzz=zero point(零点偏移);
- 反量化:Wfp16′=(Wint4−z)×sW_{fp16}' = (W_{int4} - z) \times sWfp16′=(Wint4−z)×s。
