当前位置: 首页 > news >正文

PTQ 量化数值范围与优化

一、PTQ 模型量化问题

1.1、模型问题

基于公版模型训练,没有对模型做范围做约束,weight_decay=1e-6, 训练出的 float 模型数值分布很大,如图 2,可以看到模型的后面几层数据分布范围很广,最大阈值超过了 8000,对我们量化来说并不友好。

1.2、算子问题

如图 2,基于全 int16 算子配置量化,当前版本 resize 算子有约束(请查阅工具链算子支持情况),只能支持 int8 量化,即使配置了 int16,但算子依旧退化到 int8,因此算子的 cosine 相似度也比较低,基于此阈值,max_qscale=6653/127=52.385,此 scale 过于大,并不能精细化量化模型,所以全 BPU 算子的整体精度都不高。

图 1 公版训练 float 模型

二、精度优化

2.1、cpu 高精度定位

resize 算子有限制,但对于回退 cpu 算子,就能实现 float 精度推理,配置如图 2,

图 2 配置 cpu 算子

配置了算子后,精度提升了,如图 3,可视化效果对比如图 4,整体量化精度可对齐,定位到了具体问题就是 resize 算子限制导致。

图 3 cpu 算子精度

图 4 cpu 算子可视化精度

2.2、添加 bn,加大 weight_decay

在最后的 conv 层后加上 bn 算子限制特征数据分布,同时 weight_decay 从 1e-6 调整到 1e-3,整体数据范围如图 5、图 6,模型的数据分布变小了,最后的 cosine 相似度精度也很高,非常利于 int8 量化,后期配置了 int8 量化,模型也可实现高精度量化。

图 5 全 int16 量化

图 6 部分 int16 量化

http://www.jsqmd.com/news/94947/

相关文章:

  • 9 个 MBA 毕业答辩 PPT 工具推荐,AI 格式优化神器
  • 通信系统仿真:数字调制与解调技术_(24).多径信道
  • Fail2Ban 实战终极速查表
  • Firefox 浏览器:自由与安全的互联网探索工具
  • 图像导数、梯度和Sobel算子:计算机视觉中的边缘检测基础
  • 网络安全怎么快速入门,新手也能少走半年弯路!
  • 基于SpringBoot的计算思维与人工智能学习网站设计与实现_3270a91w
  • RDF 容器:解析与使用指南
  • 数据结构资源合集
  • 数据库同步软件PanguSync说明书
  • 从GitHub到Ollama:快速部署Qwen3-8B大模型全流程详解
  • groovy流程控制
  • 4.1.17.4.MySQL索引
  • 11.19 脚本 最小web控制linux/termux - 指南
  • groovy面向对象
  • Transformer模型压缩技术在Qwen-Image上的应用前景
  • (附带word报告)并联型有源电力滤波器APF simulink仿真 利用基于瞬时无功功率理论...
  • 011.并查集
  • 49周作业
  • Miniconda环境导出与导入:实现团队协作无缝对接
  • 07FlyLTAS旅行社ERP散客滚动发团操作流程说明
  • 使用Ollama运行Seed-Coder-8B-Base:轻量级代码生成解决方案
  • 07FlyLTAS旅行社ERP散客行程分团状态说明
  • Conda虚拟环境配置Qwen-Image-Edit-2509全流程教程
  • 第六章-元素绑定
  • Labview实现四工位相机同时扫二维码、HTTP协议Mes上传及汇川PLC通讯协议
  • 2026毕设ssm+vue基于的作业管理系统论文+程序
  • 【自然语言处理】自然语言处理中数据集的开发与测试:从基础划分到稳健评估的全维度实践
  • 关于浔川 AI 翻译项目推进建议的公告
  • 如何将gpt-oss-20b封装成REST API供外部调用