当前位置: 首页 > news >正文

硬件有限,如何部署“大”模型?AMCT模型压缩工具3步解忧

我们在谈论AI大模型时,一方面会为其在逻辑推理、问题回答等各种任务中的表现出色而惊叹,另一方面也会为其巨大存储和海量计算而“头疼”。模型尺寸的不断增长确实给模型部署带来了极大的挑战,动辄几十GB,上百GB甚至上千GB的存储量,昂贵的硬件资源需求不仅让普通用户难以企及,企业用户也常常面临挑战。

在保持模型能力的前提下,如何降低模型存储需求,如何降低模型计算时延,是模型开发者和性能优化专家研究的热点问题,而模型量化压缩优化是解决这些问题的最重要的手段之一。量化效果好不好,跟原始数据的分布紧密相关,如果原始数据中存在outlier离群值,直接量化往往无法兼顾所有数据,量化效果通常会比较差。量化压缩算法通过各种方式来调整数据分布或调整量化方式,来提升最终的量化效果。AWQ/GPTQ算法对模型权重进行压缩,在保持网络精度的同时,可以将模型权重压缩到4bit,相比BF16数据模型权重参数量降低75%;SmoothQuant对激活和权重都做压缩,通过硬件更高效的低比特矩阵乘运算,不仅拿到了内存收益,同时降低了端到端的时延,提升了系统吞吐。AMCT模型压缩工具,将这些算法集成到工具中,开发者拿来即用,可以满足仅权重量化,激活权重量化等不同场景的使用需求。

对模型优化的开发者来说,硬件资源通常比较有限,如何在有限的硬件资源中高效完成模型压缩的全过程,也是开发者重点关注的问题。AMCT提供的逐block量化的算法,将模型拆分成小的量化模块单元,每个量化模块都可以单独执行量化校准过程。这些量化模块可以分配在不同的NPU卡上并行执行,大大提升了开发效率;即使开发者只有一张NPU卡,通过分块执行的方式也可以完成DeepSeek-V3.2这种尺寸规模的模型量化。MoE模型因为每个专家在模型中热度不同,整网的量化校准需要很多量化校准数据才能覆盖全部专家,逐block量化对于提升MoE模型的量化效率特别有帮助。

此外,AMCT工具简单易用,它是基于PyTorch框架做模型压缩,开发者只需要调用2,3个简单的python接口就可以完成模型压缩。量化配置的方法也很灵活,开发者可自行修改量化配置文件,调整压缩策略,获取较优的压缩结果。

参照上图,通过3步完成模型“瘦身”:

1. 准备好量化配置,调用amct.quantize接口,将原始模型转换成量化校准模型。

2. 准备好校准数据集,对量化校准模型进行校准推理,得到量化参数。

3. 调用amct.convert接口,将量化模型转换成昇腾亲和的部署模型。

欢迎关注昇腾CANN公众号,及时获取直播时间与观看链接,相信通过这次直播,大家会对AMCT的使用有更深入的了解,也能够在今后的开发工作中充分发挥它们的强大威力,为昇腾芯片的应用开发带来更多的创新和突破!

http://www.jsqmd.com/news/135746/

相关文章:

  • 有关LangChain
  • 软件工程学习日志2025.12.24
  • 52、卷积层(填充paddinng)
  • 用NLMS实现对语音的回声的消除,共4个文件,语音原声,语音回声,NLMS的实现
  • 【毕业设计】基于springboot的公司财务预算管理系统(源码+文档+远程调试,全bao定制等)
  • 乐迪信息:煤矿皮带区域安全管控:人员违规闯入智能识别
  • 49、图像的相关知识
  • 基于VMD分解算法的信号处理与故障诊断:程序化实现及数据预测分类研究
  • 【毕业设计】基于SpringBoot+Vue技术的医疗器械管理系统设计与实现(源码+文档+远程调试,全bao定制等)
  • AUTOSAR学习资料大集合
  • 接口自动化测试框架搭建:从0到1构建企业级解决方案
  • Flutter---轮播图
  • 专利推荐系统实战手记:当协同过滤遇上用户画像
  • 当花朵学会组团解题:新型花授粉算法的暴力美学
  • 50、CNN的概述介绍
  • 2-[(1-戊炔酰基)氨基]-2-脱氧-D-葡萄糖 — 代谢调控研究的新型探针试剂 1635433-54-3
  • 千匠大宗电商系统:赋能煤炭能源行业产业升级
  • 51、卷积层(计算规则)
  • 【协议】vlan
  • 机械臂轨迹规划算法,基于改进灰狼加353多项式的机械臂轨迹规划时间最优算法。 改进灰狼改进的灰...
  • 基于改进鹈鹕算法(IPOA)优化BP神经网络的智能数据回归预测模型——IPOA-BP模型及其评...
  • MATLAB驱动防滑转模型ASR模型 ASR模型驱动防滑转模型 ?牵引力控制系统模型
  • 【技术报告解读】DeepSeek-OCR: Contexts Optical Compression
  • Java毕设选题推荐:基于SpringBoot的非遗产品交流销售平台的设计与实现基于springboot的非遗文化传承与推广平台系统【附源码、mysql、文档、调试+代码讲解+全bao等】
  • 超越CRUD:在AI时代,用TDD和整洁代码构筑不可替代的护城河
  • 基于LabVIEW的双通道波形发生器:探索信号的多彩世界
  • CI/CD时代的“零容忍“原则:为什么一次破损的主干提交会摧毁整个团队?
  • MATLAB 同步磁阻电机 ESO + PR 控制闭环仿真:转速电流双优的实现
  • 绿电直连项目的审批流程与政策申报指南
  • 计算机Java毕设实战-基于java零售与仓储管理系统的设计与实现基于javaweb的超市/仓储管理系统【完整源码+LW+部署说明+演示视频,全bao一条龙等】