当前位置：首页 > news >正文

【量化】Vision Transformer 的完全量化已经从简单的 CNN 方法移植，发展成为一个拥有丰富技术体系的独立研究方向：综述

news 2026/7/14 22:36:22

检索并综述了 10 篇核心文献，涵盖：

文献方法亮点

1 FQ-ViT (CVPR 2022) PTQ PoT 因子 + 对数量化 Softmax，首次完全整数推理
2 Q-ViT (NeurIPS 2022) QAT 信息修复 + 分布蒸馏，超越全精度 +1%
3 Variation-aware (ICLR 2024) QAT 知识蒸馏 + 变异性正则，2-bit Swin-T 77.66%
4 PTQ4ViT (ICML 2022) PTQ 双均匀量化 + Hessian 度量
5 AIQViT (AAAI 2023) PTQ 低秩补偿 + 动态聚焦量化
6 IPTQ-ViT (2022) PTQ 多项式 GELU + 位移 Softmax
7 ERQ (ICML 2024) PTQ 激活/权重误差两阶段协同，超越 GPTQ 最高 36.81%
8 P2-ViT (2023) PTQ 2 的幂次缩放 + 硬件加速器，10.1× 加速
9 IGQ-ViT (CVPR 2024) PTQ 实例感知分组量化，4-bit 达 73.61%
10 LRP-QViT (2024) PTQ LRP 可解释性驱动混合精度

综述包含方法分类对比表、技术演进趋势分析，以及亚 2-bit 量化、激活/权重耦合、低阶视觉任务适配等未来方向。

综述：Vision Transformer 的完全量化（Fully Quantized Vision Transformers）

基于 FQ-ViT 及其相关工作的十篇核心文献综述

摘要

Vision Transformer（ViT）在图像分类、目标检测、语义分割等计算机视觉任务中取得了超越卷积神经网络的卓越性能。然而，ViT 庞大的参数量和计算复杂度使其难以部署到资源受限的边缘设备上。模型量化作为一种高效的压缩技术，通过将高精密浮点参数映射到低位宽整数量级，显著降低存储与计算开销。本文围绕FQ-ViT（Fully Quantized Vision Transformer）这一开创性工作，系统综述了 2022–2024 年间 Vision Transformer 量化领域的 10 篇核心文献，涵盖训练感知量化（QAT）、后训练量化（PTQ）、混合精度量化、硬件协同设计等方向，并讨论未来的研究方向。

1. 引言

1.1 背景

Transformer 架构自 NLP 领域兴起后，Vision Transformer（ViT）[Dosovitskiy et al., ICLR 2021] 将其成功引入视觉任务。与 CNN 不同，ViT 通过自注意力机制建模全局依赖，但其二次复杂度（O(n²)）和大量参数使其在边缘设备上部署困难。

1.2 为什么 ViT 量化更难？

直接将 CNN 的量化方法应用于 ViT 往往导致超过 1% 的精度损失，即使是 8-bit 量化也不行。ViT 特有的挑战包括：

LayerNorm 和 Softmax 的量化瓶颈：LayerNorm 输出的通道间方差极大，Softmax 注意力分布极端不均匀（大部分值接近 0，少数接近 1）
激活值分布异常：post-softmax 和 post-GELU 激活值显著偏离高斯分布
实例级变异性：不同输入样本的激活分布差异剧烈，使得层-wise 或通道-wise 量化策略难以兼顾
量化感知训练的振荡：ViT 内部不同模块对量化的敏感性差异巨大，导致 QAT 训练不稳定

1.3 本文贡献

系统梳理 10 篇代表性文献，按方法类型归纳，揭示技术演进脉络，并指出未来方向。

2. 核心文献综述

2.1 【开创性工作】FQ-ViT (CVPR 2022)

完整引用: Wang, B., et al. “FQ-ViT: Post-Training Quantization for Fully Quantized Vision Transformer.”CVPR 2022.

问题: 传统 CNN 量化方法直接应用于 ViT 时精度严重下降，主要源于 LayerNorm 和 Softmax 的量化困难。

核心创新:

模块	方法	作用
PTF（Power-of-Two Factor）	为不同通道赋予不同的 2 的幂次因子	结合层-wise 和通道-wise 量化的优点，缓解 LayerNorm 输入/输出的高方差激活误差
LIS（Log-Int-Softmax）	对 Softmax 注意力使用对数量化	保留更多量化层级在密集的小值区域，用 BitShift 算子简化推理

结果: 在 ImageNet 上，ViT-L 全量化精度约 84.89%（仅下降 ~1%）；Swin-S on COCO 达到 50.8 mAP。

意义: 首次实现了 ViT 的完全整数推理（fully integer-only inference），无需任何浮点中间计算。

2.2 【QAT】Q-ViT (NeurIPS 2022)

完整引用: Yang, Z., et al. “Q-ViT: Accurate and Fully Quantized Low-bit Vision Transformer.”NeurIPS 2022.

问题: 自注意力机制中的信息失真（information distortion）是低比特 ViT 精度下降的主要瓶颈。

核心创新:

模块	方法	作用
IRM（Information Rectification Module）	对注意力模块中的量化表示应用最大化信息熵映射	恢复被量化破坏的图像表示
DGD（Distribution Guided Distillation）	利用相似性矩阵中的知识消除量化前后分布不匹配	引导量化训练过程

结果: ViT-S 理论上加速 6.14×，在 ImageNet 上达到 ~80.9% Top-1 精度（甚至超过全精度版本 +1%）。

意义: 揭示了注意力信息失真是 ViT 量化的关键瓶颈，并提出熵最大化恢复思路。

2.3 【QAT】Variation-aware ViT Quantization (ICLR 2024 / arXiv 2023)

完整引用: Zhao, S., et al. “Variation-aware Vision Transformer Quantization.”arXiv:2307.00331, 2023; ICLR 2024.

问题: ViT 中存在的独特"变异性行为"（variation behaviors）导致 QAT 训练不稳定。

核心创新:

模块	方法	作用
MCKD（Multi-crop Knowledge Distillation）	在量化感知训练中引入多裁剪知识蒸馏	缓解训练中的变异性影响，加速收敛
Module-dependent Quantization	针对不同模块采用不同的量化方案	应对模块间量化敏感性的巨大差异
Variation-aware Regularization	在损失函数中加入变异性正则项	抑制权重振荡

结果: 2-bit Swin-T 在 ImageNet-1K 上达到 77.66% Top-1，超越先前 SOTA 3.35%。

意义: 首次系统分析了 ViT 中的"变异性行为"，证明知识蒸馏对 QAT 稳定性至关重要。

2.4 【PTQ】PTQ4ViT (ICML 2022)

完整引用: Wang, B., et al. “PTQ4ViT: Post-Training Quantization for Vision Transformers with Twin Uniform Quantization.”ICML 2022.

问题: 传统 PTQ 方法假设激活服从高斯分布，但 ViT 的 post-softmax 和 post-GELU 激活偏离高斯分布，且 MSE/cosine 距离在 ViT 上是不准确的量化指标。

核心创新:

模块	方法	作用
Twin Uniform Quantization (TUQ)	对 post-softmax/post-GELU 的值在两个不同范围内分别均匀量化	处理非高斯分布的激活值
Hessian-guided Metric	使用 Hessian 矩阵近似评估缩放因子的重要性	替代 MSE/cosine，更准确地确定最优缩放

结果: 在 8-bit 量化下，ViT/DeiT/Swin 的精度损失不到 0.5%，接近无损。

意义: 揭示了 MSE 作为 ViT 量化指标的局限性，引入了基于 Hessian 的评估框架。

2.5 【PTQ】AIQViT (AAAI 2023)

完整引用: Yang, Z., et al. “AIQViT: Architecture-Informed Post-Training Quantization for Vision Transformers.”AAAI 2023.

问题: 现有 PTQ 方法低估了权重量化的信息损失，且对 post-Softmax 激活的对数变换往往过度关注零附近的信息量较小的值。

核心创新:

模块	方法	作用
Architecture-Informed Low-Rank Compensation	为每个线性层引入可学习的低秩权重补偿量化信息损失	通过 NAS 确定补偿秩数，实现架构感知
DFQ（Dynamic Focusing Quantizer）	动态选择激活分布中最有价值的区间进行量化	优于传统的对数变换，在关键区域提供更高量化分辨率

结果: 在图像分类、目标检测、实例分割、点云分类等多项任务上优于 SOTA PTQ 方法。

意义: 提出"信息补偿"思路解决权重量化丢失问题，并设计了动态聚焦量化策略。

2.6 【PTQ】PTQViT/IPTQ-ViT (arXiv 2022)

完整引用: Yang, Z., et al. “IPTQ-ViT: Post-Training Quantization of Non-linear Functions for Integer-only Vision Transformers.”arXiv, 2022.

问题: ViT 中的非线性函数（GELU、Softmax）在纯整数推理中存在计算障碍。

核心创新:

模块	方法	作用
多项式近似 GELU	用低阶多项式逼近 GELU	将非线性运算转化为整数可执行的乘加
Bit-shifting Softmax	用位移操作近似 Softmax	避免浮点指数计算，实现纯整数推理

结果: 实现了无需重训练的全整数 ViT，保持有竞争力的精度。

意义: 为非线性函数的整数近似提供了新范式。

2.7 【PTQ】ERQ (ICML 2024)

完整引用: Zhang, K., et al. “ERQ: Error Reduction for Post-Training Quantization of Vision Transformers.”ICML 2024.

问题: 激活量化和权重量化之间的误差存在相互依赖性，现有方法通常独立优化两者。

核心创新:

步骤	方法	作用
Aqer（Activation Quantization Error Reduction）	将激活量化误差最小化建模为 Ridge Regression 问题	在保持权重全精度的前提下更新激活缩放
Wqer（Weight Quantization Error Reduction）	迭代优化量化权重的舍入方向，使用代理指标 + Ridge Regression	进一步降低量化权重带来的误差

结果: 在 W3A4（3-bit 权重，4-bit 激活）ViT-S 上，精度超过 GPTQ 方法最高达 22.36%–36.81%。

意义: 首次系统考虑了激活/权重量化的误差耦合关系，提出了两阶段协同优化框架。

2.8 【PTQ】P2-ViT (IEEE TPAMI / arXiv 2023)

完整引用: Li, W., et al. “P2-ViT: Power-of-Two Post-Training Quantization and Acceleration for Fully Quantized Vision Transformer.”IEEE TPAMI 2023.

问题: 传统 PTQ 使用浮点缩放因子，引入显著的重新量化开销，限制硬件效率。

核心创新:

层面	方法	作用
算法	2 的幂次缩放因子（PoT）+ 粗到细的混合精度量化	将浮点乘法转为位移位，消除重量化开销
算法	Adaptive PoT Rounding + PoT-Aware Smoothing	从激活中迁移通道级异常值到权重
硬件	专用 chunk 基加速器（处理 MatMul、LayerNorm、Softmax 等）	减少重配置开销
硬件	行稳态数据流（Row-Stationary Dataflow）	利用 PoT 的流水线特性提升吞吐

结果: 相比 GPU Turing Tensor Cores，实现 10.1× 加速和 36.8× 能耗节省。

意义: 首次将 PoT 量化与硬件加速器深度结合，实现算法-硬件协同优化。

2.9 【PTQ】IGQ-ViT (CVPR 2024)

完整引用: Chen, Y., et al. “Instance-Aware Group Quantization for Vision Transformers.”CVPR 2024.

问题: ViT 中每个通道在不同输入实例上的激活分布差异极大，层-wise 或通道-wise 量化均无法兼顾。

核心创新:

模块	方法	作用
Instance-Aware Grouping	对每个输入实例动态将激活通道分组	确保组内通道具有相似统计特性
EM-like 量化边界优化	定义距离度量将通道分配到最合适的量化器组	优化每组量化精度
高效组数分配	在 BOP（bit-operation）约束下最小化预测偏差	动态分配每层的组数量

结果: 4/4-bit 量化下，ViT-S 达到 73.61%（RepQ-ViT 仅为 65.05%）；6/6-bit 同样超越 SOTA。

意义: 提出"每实例分组"的新范式，在极低比特下保持竞争力。

2.10 【PTQ / NAS】LRP-QViT (arXiv 2024)

完整引用: Ranjan, N. & Savakis, A. “LRP-QViT: Explainability-Guided Mixed-Precision Quantization for Vision Transformers.”arXiv:2401.11255, 2024.

问题: 统一比特量化无法兼顾不同层的量化敏感性差异，混合精度策略需要更好的指导机制。

核心创新:

模块	方法	作用
LRP 贡献评分	使用 Layer-wise Relevance Propagation 计算每层对分类的贡献	指导混合精度比特分配
CCLQ（Clipped Channel-wise Quantization）	对 post-LayerNorm 激活使用截断通道-wise 量化	缓解通道间方差

结果: 在 4-bit 和 6-bit 场景下，混合精度 LRP-QViT 优于 RepQ-ViT 等方法。

意义: 将可解释性 AI（Explainable AI）引入量化比特分配，提供了新的理论视角。

3. 文献全景与分类

3.1 方法分类

ViT 量化方法 ├── 训练感知量化 (QAT) │ ├── Q-ViT (NeurIPS 2022) —— 信息修复 + 分布蒸馏 │ └── Variation-aware (ICLR 2024) —— 知识蒸馏 + 变异性正则化 │ ├── 后训练量化 (PTQ) │ ├── PTQ4ViT (ICML 2022) —— 双均匀量化 + Hessian 度量 │ ├── AIQViT (AAAI 2023) —— 低秩补偿 + 动态聚焦量化 │ ├── FQ-ViT (CVPR 2022) —— PoT 因子 + 对数量化 Softmax │ ├── IPTQ-ViT (2022) —— 多项式 GELU + 位移 Softmax │ ├── ERQ (ICML 2024) —— 两阶段误差协同优化 │ ├── P2-ViT (2023) —— 2 的幂次缩放 + 硬件加速 │ ├── IGQ-ViT (CVPR 2024) —— 实例感知分组量化 │ └── LRP-QViT (2024) —— LRP 驱动的混合精度 │ └── 硬件协同 └── P2-ViT, Quasar-ViT

3.2 关键技术对比

文献	年份	方法	核心创新	目标量化位宽	关键成果
FQ-ViT	2022	PTQ	PoT 因子 + 对数量化 Softmax	8/8-bit	首次完全整数推理
Q-ViT	2022	QAT	信息修复 + 分布蒸馏	4-bit	超越全精度 +1%
PTQ4ViT	2022	PTQ	双均匀量化 + Hessian	8/8-bit	<0.5% 精度损失
Variation-aware	2023	QAT	知识蒸馏 + 变异性正则化	2-bit	Swin-T 77.66%
AIQViT	2023	PTQ	低秩补偿 + 动态聚焦	4/4-bit	多项任务超越 SOTA
IPTQ-ViT	2022	PTQ	多项式 GELU + 位移 Softmax	整数	纯整数推理
P2-ViT	2023	PTQ	2 的幂次 + 硬件加速器	混合	10.1× 加速
ERQ	2024	PTQ	激活/权重误差协同优化	3/4-bit	超越 GPTQ 最高 36.81%
IGQ-ViT	2024	PTQ	实例感知分组	4/4-bit, 6/6-bit	4-bit 73.61%
LRP-QViT	2024	PTQ	LRP 驱动混合精度	4/6-bit	混合精度超越统一精度

3.3 技术演进趋势

从 CNN 移植 → ViT 原生设计: 早期方法尝试移植 CNN 量化技术，后发现 ViT 具有独特挑战（Softmax、LayerNorm、注意力分布），转向 ViT 原生设计。
从均匀量化 → 感知量化: 从层-wise/通道-wise 均匀量化，演进到实例感知分组、混合精度、架构感知等细粒度方案。
从纯算法 → 算法-硬件协同: 最新工作（如 P2-ViT、Quasar-ViT）将量化方法与硬件加速器联合设计，追求端到端效率。
从精度导向 → 可解释性驱动: LRP-QViT 首次将可解释性方法引入比特分配，提供了理论保障的新范式。

4. 未解决问题与未来方向

4.1 亚 2-bit 量化

当前多数方法集中在 4-bit 及以上，sub-2-bit 量化在 ViT 上仍面临严重的精度崩溃。如何在极端低比特下保持注意力信息的完整性是核心挑战。

4.2 激活量化 vs 权重量化

现有方法更关注权重量化，但研究表明激活量化（尤其是 post-LayerNorm 和 post-Softmax）往往是更严重的瓶颈。两阶段协同优化（如 ERQ）提供了新思路，但仍需更深入研究。

4.3 低阶视觉任务

当前成果主要集中在图像分类，在目标检测、实例分割、点云处理等低阶视觉任务上的量化效果仍有较大提升空间。

4.4 训练与推理的鸿沟

QAT 方法（如 Q-ViT、Variation-aware）在训练时能取得极佳效果，但需要大量标注数据和较长的训练时间；PTQ 方法（如 FQ-ViT、PTQ4ViT）虽然无需训练，但精度天花板较低。两者的精度-效率权衡仍需更优的解决方案。

4.5 与 Transformer 变体的适配

大部分方法在标准 ViT 和 Swin Transformer 上验证，但 DeiT、MobileViT、ConvNeXt-ViT 等变体的量化行为尚未被充分探索。

5. 结论

Vision Transformer 的完全量化已经从简单的 CNN 方法移植，发展成为一个拥有丰富技术体系的独立研究方向。从 FQ-ViT 的首次完全整数推理，到 Q-ViT 的信息修复，再到 ERQ 的两阶段误差优化和 IGQ-ViT 的实例感知分组，该领域在 2022–2024 年间取得了显著进展。

未来的关键突破点可能在于：亚 2-bit 极限量化、算法-硬件深度协同、可解释性驱动的比特分配，以及在更多视觉任务上的泛化。随着量化方法与新型硬件架构的深度融合，ViT 在边缘设备上的高效部署有望成为现实。

参考文献

Wang, B., et al. “FQ-ViT: Post-Training Quantization for Fully Quantized Vision Transformer.”CVPR 2022.
Yang, Z., et al. “Q-ViT: Accurate and Fully Quantized Low-bit Vision Transformer.”NeurIPS 2022.
Zhao, S., et al. “Variation-aware Vision Transformer Quantization.”arXiv:2307.00331, 2023; ICLR 2024.
Wang, B., et al. “PTQ4ViT: Post-Training Quantization for Vision Transformers with Twin Uniform Quantization.”ICML 2022.
Yang, Z., et al. “AIQViT: Architecture-Informed Post-Training Quantization for Vision Transformers.”AAAI 2023.
Yang, Z., et al. “IPTQ-ViT: Post-Training Quantization of Non-linear Functions for Integer-only Vision Transformers.”arXiv, 2022.
Zhang, K., et al. “ERQ: Error Reduction for Post-Training Quantization of Vision Transformers.”ICML 2024.
Li, W., et al. “P2-ViT: Power-of-Two Post-Training Quantization and Acceleration for Fully Quantized Vision Transformer.”IEEE TPAMI 2023.
Chen, Y., et al. “Instance-Aware Group Quantization for Vision Transformers.”CVPR 2024.
Ranjan, N. & Savakis, A. “LRP-QViT: Explainability-Guided Mixed-Precision Quantization for Vision Transformers.”arXiv:2401.11255, 2024.