当前位置: 首页 > news >正文

【量化】Vision Transformer 的完全量化已经从简单的 CNN 方法移植,发展成为一个拥有丰富技术体系的独立研究方向:综述

检索并综述了 10 篇核心文献,涵盖:

文献 方法 亮点

1 FQ-ViT (CVPR 2022) PTQ PoT 因子 + 对数量化 Softmax,首次完全整数推理
2 Q-ViT (NeurIPS 2022) QAT 信息修复 + 分布蒸馏,超越全精度 +1%
3 Variation-aware (ICLR 2024) QAT 知识蒸馏 + 变异性正则,2-bit Swin-T 77.66%
4 PTQ4ViT (ICML 2022) PTQ 双均匀量化 + Hessian 度量
5 AIQViT (AAAI 2023) PTQ 低秩补偿 + 动态聚焦量化
6 IPTQ-ViT (2022) PTQ 多项式 GELU + 位移 Softmax
7 ERQ (ICML 2024) PTQ 激活/权重误差两阶段协同,超越 GPTQ 最高 36.81%
8 P2-ViT (2023) PTQ 2 的幂次缩放 + 硬件加速器,10.1× 加速
9 IGQ-ViT (CVPR 2024) PTQ 实例感知分组量化,4-bit 达 73.61%
10 LRP-QViT (2024) PTQ LRP 可解释性驱动混合精度

综述包含方法分类对比表、技术演进趋势分析,以及亚 2-bit 量化、激活/权重耦合、低阶视觉任务适配等未来方向。

综述:Vision Transformer 的完全量化(Fully Quantized Vision Transformers)

基于 FQ-ViT 及其相关工作的十篇核心文献综述


摘要

Vision Transformer(ViT)在图像分类、目标检测、语义分割等计算机视觉任务中取得了超越卷积神经网络的卓越性能。然而,ViT 庞大的参数量和计算复杂度使其难以部署到资源受限的边缘设备上。模型量化作为一种高效的压缩技术,通过将高精密浮点参数映射到低位宽整数量级,显著降低存储与计算开销。本文围绕FQ-ViT(Fully Quantized Vision Transformer)这一开创性工作,系统综述了 2022–2024 年间 Vision Transformer 量化领域的 10 篇核心文献,涵盖训练感知量化(QAT)、后训练量化(PTQ)、混合精度量化、硬件协同设计等方向,并讨论未来的研究方向。


1. 引言

1.1 背景

Transformer 架构自 NLP 领域兴起后,Vision Transformer(ViT)[Dosovitskiy et al., ICLR 2021] 将其成功引入视觉任务。与 CNN 不同,ViT 通过自注意力机制建模全局依赖,但其二次复杂度(O(n²))和大量参数使其在边缘设备上部署困难。

1.2 为什么 ViT 量化更难?

直接将 CNN 的量化方法应用于 ViT 往往导致超过 1% 的精度损失,即使是 8-bit 量化也不行。ViT 特有的挑战包括:

  • LayerNorm 和 Softmax 的量化瓶颈:LayerNorm 输出的通道间方差极大,Softmax 注意力分布极端不均匀(大部分值接近 0,少数接近 1)
  • 激活值分布异常:post-softmax 和 post-GELU 激活值显著偏离高斯分布
  • 实例级变异性:不同输入样本的激活分布差异剧烈,使得层-wise 或通道-wise 量化策略难以兼顾
  • 量化感知训练的振荡:ViT 内部不同模块对量化的敏感性差异巨大,导致 QAT 训练不稳定

1.3 本文贡献

系统梳理 10 篇代表性文献,按方法类型归纳,揭示技术演进脉络,并指出未来方向。


2. 核心文献综述

2.1 【开创性工作】FQ-ViT (CVPR 2022)

完整引用: Wang, B., et al. “FQ-ViT: Post-Training Quantization for Fully Quantized Vision Transformer.”CVPR 2022.

问题: 传统 CNN 量化方法直接应用于 ViT 时精度严重下降,主要源于 LayerNorm 和 Softmax 的量化困难。

核心创新:

模块方法作用
PTF(Power-of-Two Factor)为不同通道赋予不同的 2 的幂次因子结合层-wise 和通道-wise 量化的优点,缓解 LayerNorm 输入/输出的高方差激活误差
LIS(Log-Int-Softmax)对 Softmax 注意力使用对数量化保留更多量化层级在密集的小值区域,用 BitShift 算子简化推理

结果: 在 ImageNet 上,ViT-L 全量化精度约 84.89%(仅下降 ~1%);Swin-S on COCO 达到 50.8 mAP。

意义: 首次实现了 ViT 的完全整数推理(fully integer-only inference),无需任何浮点中间计算。


2.2 【QAT】Q-ViT (NeurIPS 2022)

完整引用: Yang, Z., et al. “Q-ViT: Accurate and Fully Quantized Low-bit Vision Transformer.”NeurIPS 2022.

问题: 自注意力机制中的信息失真(information distortion)是低比特 ViT 精度下降的主要瓶颈。

核心创新:

模块方法作用
IRM(Information Rectification Module)对注意力模块中的量化表示应用最大化信息熵映射恢复被量化破坏的图像表示
DGD(Distribution Guided Distillation)利用相似性矩阵中的知识消除量化前后分布不匹配引导量化训练过程

结果: ViT-S 理论上加速 6.14×,在 ImageNet 上达到 ~80.9% Top-1 精度(甚至超过全精度版本 +1%)。

意义: 揭示了注意力信息失真是 ViT 量化的关键瓶颈,并提出熵最大化恢复思路。


2.3 【QAT】Variation-aware ViT Quantization (ICLR 2024 / arXiv 2023)

完整引用: Zhao, S., et al. “Variation-aware Vision Transformer Quantization.”arXiv:2307.00331, 2023; ICLR 2024.

问题: ViT 中存在的独特"变异性行为"(variation behaviors)导致 QAT 训练不稳定。

核心创新:

模块方法作用
MCKD(Multi-crop Knowledge Distillation)在量化感知训练中引入多裁剪知识蒸馏缓解训练中的变异性影响,加速收敛
Module-dependent Quantization针对不同模块采用不同的量化方案应对模块间量化敏感性的巨大差异
Variation-aware Regularization在损失函数中加入变异性正则项抑制权重振荡

结果: 2-bit Swin-T 在 ImageNet-1K 上达到 77.66% Top-1,超越先前 SOTA 3.35%。

意义: 首次系统分析了 ViT 中的"变异性行为",证明知识蒸馏对 QAT 稳定性至关重要。


2.4 【PTQ】PTQ4ViT (ICML 2022)

完整引用: Wang, B., et al. “PTQ4ViT: Post-Training Quantization for Vision Transformers with Twin Uniform Quantization.”ICML 2022.

问题: 传统 PTQ 方法假设激活服从高斯分布,但 ViT 的 post-softmax 和 post-GELU 激活偏离高斯分布,且 MSE/cosine 距离在 ViT 上是不准确的量化指标。

核心创新:

模块方法作用
Twin Uniform Quantization (TUQ)对 post-softmax/post-GELU 的值在两个不同范围内分别均匀量化处理非高斯分布的激活值
Hessian-guided Metric使用 Hessian 矩阵近似评估缩放因子的重要性替代 MSE/cosine,更准确地确定最优缩放

结果: 在 8-bit 量化下,ViT/DeiT/Swin 的精度损失不到 0.5%,接近无损。

意义: 揭示了 MSE 作为 ViT 量化指标的局限性,引入了基于 Hessian 的评估框架。


2.5 【PTQ】AIQViT (AAAI 2023)

完整引用: Yang, Z., et al. “AIQViT: Architecture-Informed Post-Training Quantization for Vision Transformers.”AAAI 2023.

问题: 现有 PTQ 方法低估了权重量化的信息损失,且对 post-Softmax 激活的对数变换往往过度关注零附近的信息量较小的值。

核心创新:

模块方法作用
Architecture-Informed Low-Rank Compensation为每个线性层引入可学习的低秩权重补偿量化信息损失通过 NAS 确定补偿秩数,实现架构感知
DFQ(Dynamic Focusing Quantizer)动态选择激活分布中最有价值的区间进行量化优于传统的对数变换,在关键区域提供更高量化分辨率

结果: 在图像分类、目标检测、实例分割、点云分类等多项任务上优于 SOTA PTQ 方法。

意义: 提出"信息补偿"思路解决权重量化丢失问题,并设计了动态聚焦量化策略。


2.6 【PTQ】PTQViT/IPTQ-ViT (arXiv 2022)

完整引用: Yang, Z., et al. “IPTQ-ViT: Post-Training Quantization of Non-linear Functions for Integer-only Vision Transformers.”arXiv, 2022.

问题: ViT 中的非线性函数(GELU、Softmax)在纯整数推理中存在计算障碍。

核心创新:

模块方法作用
多项式近似 GELU用低阶多项式逼近 GELU将非线性运算转化为整数可执行的乘加
Bit-shifting Softmax用位移操作近似 Softmax避免浮点指数计算,实现纯整数推理

结果: 实现了无需重训练的全整数 ViT,保持有竞争力的精度。

意义: 为非线性函数的整数近似提供了新范式。


2.7 【PTQ】ERQ (ICML 2024)

完整引用: Zhang, K., et al. “ERQ: Error Reduction for Post-Training Quantization of Vision Transformers.”ICML 2024.

问题: 激活量化和权重量化之间的误差存在相互依赖性,现有方法通常独立优化两者。

核心创新:

步骤方法作用
Aqer(Activation Quantization Error Reduction)将激活量化误差最小化建模为 Ridge Regression 问题在保持权重全精度的前提下更新激活缩放
Wqer(Weight Quantization Error Reduction)迭代优化量化权重的舍入方向,使用代理指标 + Ridge Regression进一步降低量化权重带来的误差

结果: 在 W3A4(3-bit 权重,4-bit 激活)ViT-S 上,精度超过 GPTQ 方法最高达 22.36%–36.81%。

意义: 首次系统考虑了激活/权重量化的误差耦合关系,提出了两阶段协同优化框架。


2.8 【PTQ】P2-ViT (IEEE TPAMI / arXiv 2023)

完整引用: Li, W., et al. “P2-ViT: Power-of-Two Post-Training Quantization and Acceleration for Fully Quantized Vision Transformer.”IEEE TPAMI 2023.

问题: 传统 PTQ 使用浮点缩放因子,引入显著的重新量化开销,限制硬件效率。

核心创新:

层面方法作用
算法2 的幂次缩放因子(PoT)+ 粗到细的混合精度量化将浮点乘法转为位移位,消除重量化开销
算法Adaptive PoT Rounding + PoT-Aware Smoothing从激活中迁移通道级异常值到权重
硬件专用 chunk 基加速器(处理 MatMul、LayerNorm、Softmax 等)减少重配置开销
硬件行稳态数据流(Row-Stationary Dataflow)利用 PoT 的流水线特性提升吞吐

结果: 相比 GPU Turing Tensor Cores,实现 10.1× 加速和 36.8× 能耗节省。

意义: 首次将 PoT 量化与硬件加速器深度结合,实现算法-硬件协同优化。


2.9 【PTQ】IGQ-ViT (CVPR 2024)

完整引用: Chen, Y., et al. “Instance-Aware Group Quantization for Vision Transformers.”CVPR 2024.

问题: ViT 中每个通道在不同输入实例上的激活分布差异极大,层-wise 或通道-wise 量化均无法兼顾。

核心创新:

模块方法作用
Instance-Aware Grouping对每个输入实例动态将激活通道分组确保组内通道具有相似统计特性
EM-like 量化边界优化定义距离度量将通道分配到最合适的量化器组优化每组量化精度
高效组数分配在 BOP(bit-operation)约束下最小化预测偏差动态分配每层的组数量

结果: 4/4-bit 量化下,ViT-S 达到 73.61%(RepQ-ViT 仅为 65.05%);6/6-bit 同样超越 SOTA。

意义: 提出"每实例分组"的新范式,在极低比特下保持竞争力。


2.10 【PTQ / NAS】LRP-QViT (arXiv 2024)

完整引用: Ranjan, N. & Savakis, A. “LRP-QViT: Explainability-Guided Mixed-Precision Quantization for Vision Transformers.”arXiv:2401.11255, 2024.

问题: 统一比特量化无法兼顾不同层的量化敏感性差异,混合精度策略需要更好的指导机制。

核心创新:

模块方法作用
LRP 贡献评分使用 Layer-wise Relevance Propagation 计算每层对分类的贡献指导混合精度比特分配
CCLQ(Clipped Channel-wise Quantization)对 post-LayerNorm 激活使用截断通道-wise 量化缓解通道间方差

结果: 在 4-bit 和 6-bit 场景下,混合精度 LRP-QViT 优于 RepQ-ViT 等方法。

意义: 将可解释性 AI(Explainable AI)引入量化比特分配,提供了新的理论视角。


3. 文献全景与分类

3.1 方法分类

ViT 量化方法 ├── 训练感知量化 (QAT) │ ├── Q-ViT (NeurIPS 2022) —— 信息修复 + 分布蒸馏 │ └── Variation-aware (ICLR 2024) —— 知识蒸馏 + 变异性正则化 │ ├── 后训练量化 (PTQ) │ ├── PTQ4ViT (ICML 2022) —— 双均匀量化 + Hessian 度量 │ ├── AIQViT (AAAI 2023) —— 低秩补偿 + 动态聚焦量化 │ ├── FQ-ViT (CVPR 2022) —— PoT 因子 + 对数量化 Softmax │ ├── IPTQ-ViT (2022) —— 多项式 GELU + 位移 Softmax │ ├── ERQ (ICML 2024) —— 两阶段误差协同优化 │ ├── P2-ViT (2023) —— 2 的幂次缩放 + 硬件加速 │ ├── IGQ-ViT (CVPR 2024) —— 实例感知分组量化 │ └── LRP-QViT (2024) —— LRP 驱动的混合精度 │ └── 硬件协同 └── P2-ViT, Quasar-ViT

3.2 关键技术对比

文献年份方法核心创新目标量化位宽关键成果
FQ-ViT2022PTQPoT 因子 + 对数量化 Softmax8/8-bit首次完全整数推理
Q-ViT2022QAT信息修复 + 分布蒸馏4-bit超越全精度 +1%
PTQ4ViT2022PTQ双均匀量化 + Hessian8/8-bit<0.5% 精度损失
Variation-aware2023QAT知识蒸馏 + 变异性正则化2-bitSwin-T 77.66%
AIQViT2023PTQ低秩补偿 + 动态聚焦4/4-bit多项任务超越 SOTA
IPTQ-ViT2022PTQ多项式 GELU + 位移 Softmax整数纯整数推理
P2-ViT2023PTQ2 的幂次 + 硬件加速器混合10.1× 加速
ERQ2024PTQ激活/权重误差协同优化3/4-bit超越 GPTQ 最高 36.81%
IGQ-ViT2024PTQ实例感知分组4/4-bit, 6/6-bit4-bit 73.61%
LRP-QViT2024PTQLRP 驱动混合精度4/6-bit混合精度超越统一精度

3.3 技术演进趋势

  1. 从 CNN 移植 → ViT 原生设计: 早期方法尝试移植 CNN 量化技术,后发现 ViT 具有独特挑战(Softmax、LayerNorm、注意力分布),转向 ViT 原生设计。

  2. 从均匀量化 → 感知量化: 从层-wise/通道-wise 均匀量化,演进到实例感知分组、混合精度、架构感知等细粒度方案。

  3. 从纯算法 → 算法-硬件协同: 最新工作(如 P2-ViT、Quasar-ViT)将量化方法与硬件加速器联合设计,追求端到端效率。

  4. 从精度导向 → 可解释性驱动: LRP-QViT 首次将可解释性方法引入比特分配,提供了理论保障的新范式。


4. 未解决问题与未来方向

4.1 亚 2-bit 量化

当前多数方法集中在 4-bit 及以上,sub-2-bit 量化在 ViT 上仍面临严重的精度崩溃。如何在极端低比特下保持注意力信息的完整性是核心挑战。

4.2 激活量化 vs 权重量化

现有方法更关注权重量化,但研究表明激活量化(尤其是 post-LayerNorm 和 post-Softmax)往往是更严重的瓶颈。两阶段协同优化(如 ERQ)提供了新思路,但仍需更深入研究。

4.3 低阶视觉任务

当前成果主要集中在图像分类,在目标检测、实例分割、点云处理等低阶视觉任务上的量化效果仍有较大提升空间。

4.4 训练与推理的鸿沟

QAT 方法(如 Q-ViT、Variation-aware)在训练时能取得极佳效果,但需要大量标注数据和较长的训练时间;PTQ 方法(如 FQ-ViT、PTQ4ViT)虽然无需训练,但精度天花板较低。两者的精度-效率权衡仍需更优的解决方案。

4.5 与 Transformer 变体的适配

大部分方法在标准 ViT 和 Swin Transformer 上验证,但 DeiT、MobileViT、ConvNeXt-ViT 等变体的量化行为尚未被充分探索。


5. 结论

Vision Transformer 的完全量化已经从简单的 CNN 方法移植,发展成为一个拥有丰富技术体系的独立研究方向。从 FQ-ViT 的首次完全整数推理,到 Q-ViT 的信息修复,再到 ERQ 的两阶段误差优化和 IGQ-ViT 的实例感知分组,该领域在 2022–2024 年间取得了显著进展。

未来的关键突破点可能在于:亚 2-bit 极限量化、算法-硬件深度协同、可解释性驱动的比特分配,以及在更多视觉任务上的泛化。随着量化方法与新型硬件架构的深度融合,ViT 在边缘设备上的高效部署有望成为现实。


参考文献

  1. Wang, B., et al. “FQ-ViT: Post-Training Quantization for Fully Quantized Vision Transformer.”CVPR 2022.
  2. Yang, Z., et al. “Q-ViT: Accurate and Fully Quantized Low-bit Vision Transformer.”NeurIPS 2022.
  3. Zhao, S., et al. “Variation-aware Vision Transformer Quantization.”arXiv:2307.00331, 2023; ICLR 2024.
  4. Wang, B., et al. “PTQ4ViT: Post-Training Quantization for Vision Transformers with Twin Uniform Quantization.”ICML 2022.
  5. Yang, Z., et al. “AIQViT: Architecture-Informed Post-Training Quantization for Vision Transformers.”AAAI 2023.
  6. Yang, Z., et al. “IPTQ-ViT: Post-Training Quantization of Non-linear Functions for Integer-only Vision Transformers.”arXiv, 2022.
  7. Zhang, K., et al. “ERQ: Error Reduction for Post-Training Quantization of Vision Transformers.”ICML 2024.
  8. Li, W., et al. “P2-ViT: Power-of-Two Post-Training Quantization and Acceleration for Fully Quantized Vision Transformer.”IEEE TPAMI 2023.
  9. Chen, Y., et al. “Instance-Aware Group Quantization for Vision Transformers.”CVPR 2024.
  10. Ranjan, N. & Savakis, A. “LRP-QViT: Explainability-Guided Mixed-Precision Quantization for Vision Transformers.”arXiv:2401.11255, 2024.
http://www.jsqmd.com/news/855617/

相关文章:

  • 3种方法彻底解锁英雄联盟国服皮肤:R3nzSkin换肤工具完整指南
  • LTE/5G常见业务问题(比如速率低 /MOS<3/随机接入失败等 )排查思路和方法
  • 告别拓展坞!实测Spacedesk无线投屏:Win10/Win11到iPad的延迟、画质与触控体验全解析
  • 期刊推荐:SN Social Sciences(ISSN: 2662-9283)
  • 告别DHCP:ESXi 8.0安装后如何手动配置静态IP和管理网络
  • IPC如何查看照片缩略图及照片
  • Dify系列课程 - 6.本地Dify关联本地大模型 Deepseek
  • 13 极物科技 JetLinks MQTT:网关设备与网关子设备 - 温控设备场景
  • c#软件开发学习笔记--数据类型
  • 保姆级教程:从VMnet感叹号到CentOS网络‘被拔出’,一站式修复VMware虚拟网络所有问题
  • 笔记本散热革命:NBFC-Linux让你的电脑告别“烧烤模式“[特殊字符]
  • Vibe Coding工作流2026:AI辅助编程的真实使用方式
  • Amphenol ICC MSPEC2L0A5010线束组件解析与替代思路
  • 深入解析Android架构设计:聚焦MVVM模式及其应用实践
  • RS-WorldModel: a Unified Model for RemoteSensing Understanding and Future SenseForecasting
  • NGA论坛优化脚本完整指南:5分钟打造高效浏览体验
  • 为什么你的微调模型Perplexity下降23%但人工测评反降41%?——揭开评估失真背后的4层认知断层
  • 从宿舍查寝神器到企业考勤解决方案:栎偲考勤神器的技术落地实践
  • 部署安装CLup(6.0版本-超详细)
  • 华为、华三、思科、锐捷网络设备远程登录配置
  • 5.20学习内容
  • Android 音视频开发深度解析:从基础原理到面试实战
  • 2026全栈自动化测试避坑指南:别让过时的“面试经”毁了你的竞争力
  • 软件工程师在智能体视觉时代的机遇(20)
  • 【Java+AI】Java正在悄然“杀死“Python的AI霸权——虚拟线程与GraalVM如何重写企业级AI推理规则
  • 多模态RAG工程实践:图片、表格、文档混合检索的完整方案
  • 2026年知名的腕表/智能定位腕表长期合作厂家推荐 - 行业平台推荐
  • Python WAV音频压缩完全指南:从有损到无损的全方案实现
  • 小佩宠物饮水机拆机分析报告
  • 从Claude Code到AI编程全家桶:Cursor、OpenClaw、Codex、Gemini等主流工具深度横评