当前位置：首页 > news >正文

PTQ 量化数值范围与优化

news 2026/7/15 13:38:31

一、PTQ 模型量化问题

1.1、模型问题

基于公版模型训练，没有对模型做范围做约束，weight_decay=1e-6，训练出的 float 模型数值分布很大，如图 2，可以看到模型的后面几层数据分布范围很广，最大阈值超过了 8000，对我们量化来说并不友好。

1.2、算子问题

如图 2，基于全 int16 算子配置量化，当前版本 resize 算子有约束（请查阅工具链算子支持情况），只能支持 int8 量化，即使配置了 int16，但算子依旧退化到 int8，因此算子的 cosine 相似度也比较低，基于此阈值，max_qscale=6653/127=52.385，此 scale 过于大，并不能精细化量化模型，所以全 BPU 算子的整体精度都不高。

图 1 公版训练 float 模型

二、精度优化

2.1、cpu 高精度定位

resize 算子有限制，但对于回退 cpu 算子，就能实现 float 精度推理，配置如图 2，

图 2 配置 cpu 算子

配置了算子后，精度提升了，如图 3，可视化效果对比如图 4，整体量化精度可对齐，定位到了具体问题就是 resize 算子限制导致。

图 3 cpu 算子精度

图 4 cpu 算子可视化精度

2.2、添加 bn，加大 weight_decay

在最后的 conv 层后加上 bn 算子限制特征数据分布，同时 weight_decay 从 1e-6 调整到 1e-3，整体数据范围如图 5、图 6，模型的数据分布变小了，最后的 cosine 相似度精度也很高，非常利于 int8 量化，后期配置了 int8 量化，模型也可实现高精度量化。

图 5 全 int16 量化

图 6 部分 int16 量化

http://www.jsqmd.com/news/94947/

相关文章：

9 个 MBA 毕业答辩 PPT 工具推荐，AI 格式优化神器

通信系统仿真：数字调制与解调技术_（24）.多径信道

Fail2Ban 实战终极速查表

Firefox 浏览器：自由与安全的互联网探索工具

图像导数、梯度和Sobel算子：计算机视觉中的边缘检测基础

网络安全怎么快速入门，新手也能少走半年弯路！

基于SpringBoot的计算思维与人工智能学习网站设计与实现_3270a91w

RDF 容器：解析与使用指南

数据结构资源合集

数据库同步软件PanguSync说明书

从GitHub到Ollama：快速部署Qwen3-8B大模型全流程详解

groovy流程控制

4.1.17.4.MySQL索引

11.19 脚本最小web控制linux/termux - 指南

groovy面向对象

Transformer模型压缩技术在Qwen-Image上的应用前景

（附带word报告）并联型有源电力滤波器APF simulink仿真利用基于瞬时无功功率理论...

Miniconda环境导出与导入：实现团队协作无缝对接

07FlyLTAS旅行社ERP散客滚动发团操作流程说明

使用Ollama运行Seed-Coder-8B-Base：轻量级代码生成解决方案

07FlyLTAS旅行社ERP散客行程分团状态说明

Conda虚拟环境配置Qwen-Image-Edit-2509全流程教程

第六章-元素绑定

Labview实现四工位相机同时扫二维码、HTTP协议Mes上传及汇川PLC通讯协议

2026毕设ssm+vue基于的作业管理系统论文+程序

【自然语言处理】自然语言处理中数据集的开发与测试：从基础划分到稳健评估的全维度实践

关于浔川 AI 翻译项目推进建议的公告

如何将gpt-oss-20b封装成REST API供外部调用