当前位置: 首页 > news >正文

大模型---量化

目录

1.对称量化与非对称量化

2.量化的粒度

3.量化的对象

4.PTQ和QAT(什么时候量化)

5.静态量化与动态量化(量化参数什么时候确定)

6.常见的模型格式


量化,本质上就是把模型里原本高精度的数值表示,换成更低精度的表示。最典型的是把FP32、FP16这类浮点数,改成INT8、INT4之类更省空间的形式。这样做的核心目标是降低显存/内存占用、加快推理,并且降低部署成本。具体来说,FP32每个参数4字节,FP16/BF16每个参数2字节
INT8每个参数1字节,INT4每个参数0.5字节,对于同一个模型,如果只看权重存储,从FP16到INT8,大约能再省一半;从FP16到INT4,大约能省到四分之一。

量化本质上是在建立浮点数到整数的映射,原来权重是连续实数,比如:0.137、-0.824、1.562、0.004 ...,量化以后,要把它们映射到有限个整数格子里,比如8位整数只有256个取值。

我们可以将原来模型看作“高清原图”,量化后则是“高压缩图片”,目标就是尽量少损失效果,换来更低的内存占用。

补充:weight packing(权重打包),它涉及将多个权重参数合并或“打包”成一个量化单元,以减少模型的内存占用和提高计算效率。其用于量化后的高效存和读,比如4bit权重,一个权重只占半个字节。那两个4bit权重就可以塞进1个字节里。这就是最简单的packing。工程实现里会按块、按组、按硬件友好的内存布局打包,以便更快加载/访存,以及更高效地调用kernel。

1.对称量化与非对称量化

对称量化要求”零点对应零”,量化范围以0为中心对称。非对称量化则还需要学习零点zero-point,其实也就是在对称量化的基础上,给整数坐标平移了一下原点,让整数空间里的某个整数z,去对应实数空间中的0,非对称量化更适合分布不对称的数据。

量化的公式:

(1)量化:

其中q为量化后的整数,x为原始浮点数,s(scale)为缩放因子,round表示四舍五入,z(zero-point)为零点,,:整数范围上下界,clip表示截断到合法范围内

(2)反量化:

其中为反量化后的近似值

可简单记忆为:量化=先除以 scale,再加zero-point

http://www.jsqmd.com/news/563317/

相关文章:

  • nginx做四层代理配置
  • 【技术解析】PSMNet:如何通过金字塔池化与堆叠沙漏3D CNN革新立体匹配?
  • 3步破解Mac NTFS读写限制:面向跨平台工作者的开源工具Nigate全指南
  • HarmonyOS 6实战5:应用性能管理与崩溃日志分析技术
  • 从AlphaGo到《原神》NPC:蒙特卡洛树搜索(MCTS)在游戏AI中的落地实践
  • 2026年成品家具与定制服务白皮书南通高端别墅装修解析:如东家具工厂店、如东高端家具定制、如东黑胡桃家具工厂店选择指南 - 优质品牌商家
  • 3个核心价值:APKMirror安全下载与管理指南
  • 双目立体视觉实战:从平行视图到3D电影原理的完整解析
  • 从VMware到Pwn环境:Ubuntu 22.04虚拟机配置与安全研究工具链全解析
  • PyMobileDevice3 高效异步架构解析:深入理解iOS设备通信协议栈实现
  • Bongo Cat终极指南:如何选择最适合你的桌面猫咪伙伴
  • Qwen3-TTS语音生成保姆级教程:5分钟搞定10国语言配音
  • 深度学习模型可解释性详解:从原理到实践
  • C语言实现面向对象编程的嵌入式实践
  • MATLAB分类学习器保姆级教程:从鸢尾花数据集到模型导出全流程
  • Vivado 2018.3实战:Zedboard DDR配置疑难杂症全解析(附原理图对照技巧)
  • 基于Django与DeepSeek API,快速构建企业级AI知识库问答网站
  • 三极管实战指南:从NPN到PNP,手把手教你识别与使用(附常见误区解析)
  • 慕尼黑工业大学全新突破:让2D图片生成器变身3D世界建造师
  • 高级电子图章制作软件下载|专业印章设计工具,支持一键导出Word图片
  • Android 12+启动页适配踩坑实录:SplashScreen API与传统方案的无缝衔接指南
  • Python箱线图实战:从原理到自定义异常值边界
  • 2026长沙名表抵押及K金回收服务白皮书:长沙名烟回收、长沙名表回收、长沙名酒回收、长沙奢侈品抵押、长沙彩金回收选择指南 - 优质品牌商家
  • 用Node.js+FFmpeg搭建GB28181转码网关:将监控流实时转成H5兼容的FLV格式
  • 独立站SEO与网站用户体验的关系
  • 一文搞懂CNN经典架构-ResNet!
  • Vue3+Cesium实战:解决404报错与Webpack配置优化指南
  • 如何安全升级Doris集群:从元数据备份到节点重启的完整步骤
  • $http_x_forwarded_for和$remote_addr对比
  • 速腾Helios雷达+fast-LIO2实战:如何将XYZIRT点云数据高效喂给算法并评估建图效果