当前位置: 首页 > news >正文

CANN/AMCT Quantile量化

AMCT大模型Quantile分位量化

【免费下载链接】amctAMCT是CANN提供的昇腾AI处理器亲和的模型压缩工具仓。项目地址: https://gitcode.com/cann/amct

1 量化前提

1.1 安装依赖

本sample依赖包可参考requirements.txt

需要注意的是torch_npu包版本需要与Python、torch包版本相匹配,需要安装CANN包

1.2 模型和数据集准备

本sample以Llama2-7b,qwen2-7b,qwen3-8b模型,pileval数据,wikitext2数据集为示例, 数据为在线加载,模型需要用户自己下载并在执行脚本时指定模型路径。

1.3 简易量化配置

本sample中使用的量化配置已经内置在工具中,可以通过下述方式获取并使用:

HIF8全量化配置:from amct_pytorch import HIFP8_QUANTILE_CFG

cfg = { 'batch_num': 1, 'quant_cfg': { 'weights': { 'type': 'hifloat8', 'symmetric': True, 'strategy': 'tensor', }, 'inputs': { 'type': 'hifloat8', 'symmetric': True, 'strategy': 'tensor', }, }, 'algorithm': {'quantile'}, 'skip_layers': {'lm_head'} }

如果需要修改详细配置,请参考资料构造需要的量化配置dict。

Quantile算法支持仅权重量化和全量化,支持的量化类型以及量化配置:

字段类型说明取值范围注意事项
batch_numuint32量化使用的batch数量1/
skip_layersstr跳过量化的层/跳过量化层支持模糊匹配,当配置字符串为层名字串,或与层名一致时,跳过该层量化,不生成量化配置。字符串必须包含数字或字母
weights.typestr量化后权重类型'hifloat8'Quantile算法主要针对HIF8数据类型优化
weights.symmetricbool对称量化True/FalseHIF8数据类型支持对称量化和非对称量化
weights.strategystr量化粒度'tensor'/'channel'支持per-tensor和per-channel
inputs.typestr量化后激活类型'hifloat8'全量化场景需要配置
inputs.symmetricbool对称量化True/FalseHIF8数据类型支持对称量化和非对称量化
inputs.strategystr量化粒度'tensor'/'token'支持per-tensor和per-token(静态/动态)
inputs.dynamicbool量化模式True/Falseinputs.strategy配置了per-token情况下支持静态和动态
algorithmdict量化使用的算法配置{'quantile'}/

2 量化示例

2.1 使用接口方式调用

step 1.请在当前目录执行如下命令运行示例程序,用户需根据实际情况修改示例程序中的模型和数据集路径:

使用内置配置进行HIF8全量化:

python3 src/run_llama2_samples.py --model_path=/data/Llama2_7b_hf/
python3 src/run_qwen_samples.py --model_path=/data/Qwen2-7b/
python3 src/run_qwen_samples.py --model_path=/data/Qwen3-8b/

若出现如下信息,则说明量化成功:

Test time taken: 1.0 min 59.24865388870239 s Score: 5.477707

其中Score为量化模型PPL,具体数值参考下表:

模型校准集数据集量化前PPL量化后PPL
LLAMA2-7Bpilevalwikitext25.4725.507
QWEN2-7Bpilevalwikitext27.1377.169
QWEN3-8Bpilevalwikitext29.7159.760

推理成功后,在当前目录会生成量化日志文件./amct_log/amct_pytorch.log

【免费下载链接】amctAMCT是CANN提供的昇腾AI处理器亲和的模型压缩工具仓。项目地址: https://gitcode.com/cann/amct

创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考

http://www.jsqmd.com/news/782987/

相关文章:

  • Hermes Agent工具链接入Taotoken聚合API的配置指南
  • GE图引擎资源变更通知API
  • 美团大模型二面:你的RAG知识库更新策略是怎样的?
  • CANN/ops-cv一维上采样反向算子
  • CANN电力仿真张量求和优化
  • 2026年4月市面上靠谱的铁氟龙排线厂商推荐,柔软度好,方便施工操作 - 品牌推荐师
  • 电液控制装置控制器4K型护套连接器
  • 企业如何利用Taotoken统一管理多个AI模型API密钥与用量
  • CANN框架适配SIG
  • 自贡智能家居装修预算怎么控制?悦阳装饰全案整装透明报价体系解析 - 优质企业观察收录
  • cann/catlass Ascend950全解量化矩阵乘
  • 电子元器件焊接调试实战经验总结
  • Switch大气层系统深度配置:从零构建你的个性化游戏环境
  • 求推荐芜湖靠谱的装修公司?来看我的真实体验
  • CANN/metadef获取算子属性值接口
  • 2026自贡装修公司全案对标:从毛坯到拎包入住的一站式整装避坑指南 - 优质企业观察收录
  • 【研报 A104】AI康养深度研究报告:从辅助诊疗,到全周期照护操作系统
  • 如何借助Taotoken用量看板精准分析并优化团队的AI调用成本
  • AI医疗实战:构建鲁棒性青光眼筛查模型的多任务学习与部署策略
  • CANN算子测试总决赛
  • CANN/HCOMM线程读取归约操作
  • CANN Add算子Kernel执行样例
  • CANN/cann-recipes-infer:Kimi-K2-Thinking NPU推理
  • IT疑难杂症诊疗室:从蓝屏到勒索软件全攻略
  • 三步解锁QQ音乐加密文件:qmc-decoder让你的音乐真正自由播放
  • 深度剖析Go语言,一文告诉你为什么大厂开始增加Go的招聘量
  • AI与Web3.0融合:技术路径、挑战与实践指南
  • 小红书内容采集终极指南:5种高效下载方案全解析
  • 网络交换芯片:从25.6T到51.2T的技术演进与挑战
  • XUnity Auto Translator:如何在5分钟内为任何Unity游戏添加多语言支持