当前位置: 首页 > news >正文

CANN/AMCT大模型Cast量化

AMCT大模型量化

【免费下载链接】amctAMCT是CANN提供的昇腾AI处理器亲和的模型压缩工具仓。项目地址: https://gitcode.com/cann/amct

1 量化前提

1.1 安装依赖

本sample依赖包可参考requirements.txt

需要注意的是torch_npu包版本需要与Python、torch包版本相匹配,需要安装CANN包

1.2 模型和数据集准备

本sample以Llama2-7b,qwen2-7b,qwen3-8b模型,wikitext2数据集为示例。 模型请用户自行下载,并传模型路径到脚本,数据集为在线加载。

1.3 简易量化配置

本sample中使用的量化配置已经内置在工具中,可以通过下述方式获取并使用:

from amct_pytorch import HIFP8_CAST_CFG

如果需要修改详细配置,请参考资料构造需要的量化配置dict。

cast只转算法支持仅权重量化和全量化,支持的量化类型以及量化配置:

字段类型说明取值范围注意事项
batch_numuint32量化使用的batch数量1/
skip_layersstr跳过量化的层/跳过量化层支持模糊匹配,当配置字符串为层名字串,或与层名一致时,跳过该层量化,不生成量化配置。字符串必须包含数字或字母
weights.typestr量化后权重类型'hifloat8'/
weights.symmtricbool对称量化TRUE/
weights.strategystr量化粒度'tensor'/'channel'/
inputs.typestr量化后激活值类型'hifloat8'/
inputs.symmtricbool对称量化TRUE/
inputs.strategystr量化粒度'tensor'/'token'/
algorithmdict量化使用的算法配置{'cast'}/

2 量化示例

2.1 使用接口方式调用

step 1.请在当前目录执行如下命令运行示例程序,用户需根据实际情况修改示例程序中的模型路径:

python3 src/run_llama2_samples.py --model_path=/data/Llama2_7b_hf/
python3 src/run_qwen_samples.py --model_path=/data/Qwen2-7b/
python3 src/run_qwen_samples.py --model_path=/data/Qwen3-8B/

若出现如下信息,则说明量化成功:

Test time taken: 1.0 min 59.24865388870239 s Score: 5.477707

其中Score为量化模型PPL,具体数值参考下表:

模型校准集数据集量化前PPL量化后PPL
LLAMA2-7Bpilevalwikitext25.4725.524
QWEN2-7Bpilevalwikitext27.1377.188
QWEN3-8Bpilevalwikitext29.7159.745

推理成功后,在当前目录会生成量化日志文件./amct_log/amct_pytorch.log

【免费下载链接】amctAMCT是CANN提供的昇腾AI处理器亲和的模型压缩工具仓。项目地址: https://gitcode.com/cann/amct

创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考

http://www.jsqmd.com/news/782941/

相关文章:

  • CANN/sip信号处理加速库CalOperation
  • CANN/hixl LLM-DataDist数据结构
  • 6G时代零接触式普适AI即服务架构:融合区块链与DRL的自动化AI交付
  • cann/runtime其他接口API文档
  • 顶会论文模块复现与二次创新:二次创新:将 DETR 的查询式检测头蒸馏进 YOLOv11,打造混合式 Anchor-free 头
  • 模型诊断:从冲突集到命中集,构建高效故障定位系统
  • CANN/catlass Gemm/Block类模板概述
  • DeepEP V2 为什么值得做 MoE 的团队现在就关注?真正先拖慢吞吐的,不是专家数,而是 EP 通信还在抢 SM
  • 如何高效实现魔兽争霸3现代化兼容?WarcraftHelper实战指南
  • CANN/driver容器共享配置查询
  • CANN/cannbot-skills 模型审查专家代理
  • GD32中的DMA使用教程
  • HCOMM通信算子NPU环境测试
  • Kemptide (Phosphate Acceptor Peptide);LRRASLG
  • 【算法】小白也能懂 · 第 2 节:数组双指针技巧(快慢指针、左右指针)
  • CANN/atvoss向量算子库概述
  • 别再盲目自学 CTF!零基础专属入门完整路线,看完直接上手实战
  • 面向对象设计原则在Java开发中的应用
  • CANN/metadef GetAddr函数API文档
  • 可解释AI在膝骨关节炎诊断中的应用:从黑盒模型到临床可信赖的决策伙伴
  • 医疗生成式AI的伦理治理:GREAT PLEA框架下的公平、可靠与问责实践
  • CANN/tensorflow AOE调优配置
  • CANN/asc-devkit AllocTensor API
  • 遥感图像分类可解释AI方法:定量评估与工程实践指南
  • 显卡驱动冲突终极解决方案:Display Driver Uninstaller深度使用指南
  • 第8天:常用数据结构之列表
  • AI安全新范式:从红蓝对抗到紫队协同的实战指南
  • 3个核心功能让你轻松掌握QtScrcpy:免费开源的Android投屏控制终极指南
  • 毕业论文查重网站终极横评:知网/维普/PaperPass/PaperYY谁最准?
  • CANN/pypto RMS归一化API文档