当前位置: 首页 > news >正文

昇腾服务器大模型量化方法

昇腾服务器大模型量化方法

本文介绍如何使用量化工具在昇腾服务器上做量化,量化工具使用msModelSlim,推理框架使用MindIE,昇腾卡为Atlas300I Duo卡,以量化多模型模型Qwen2.5-VL-7B-Instruct为例。

准备mindie镜像

镜像版本:2.2.RC1-300I-Duo-py311-openeuler24.03-lts

创建容器

dockerrun -it -u root --ipc=host --net=host\--name mindie22\--privileged\--device=/dev/davinci_manager\--device=/dev/devmm_svm\--device=/dev/hisi_hdc\-v /usr/local/bin/npu-smi:/usr/local/bin/npu-smi\-v /usr/local/Ascend/driver/lib64/common:/usr/local/Ascend/driver/lib64/common\-v /usr/local/Ascend/driver/lib64/driver:/usr/local/Ascend/driver/lib64/driver\-v /etc/ascend_install.info:/etc/ascend_install.info\-v /etc/vnpu.cfg:/etc/vnpu.cfg\-v /usr/local/Ascend/driver/version.info:/usr/local/Ascend/driver/version.info\-v /data:/data\ca41f88c275c /bin/bash

在容器内安装量化工具

gitclone https://gitcode.com/Ascend/msit.gitcdmsmodelslimbashinstall.sh


模型量化

#还需要执行以下命令安装qwen_vl_utils依赖pipinstallqwen_vl_utilscdmsit/msmodelslim/example/multimodal_vlm/ Qwen2.5-VL python quant_qwen2_5vl.py --model_path /data/models/Qwen/Qwen2.5-VL-7B-Instruct --calib_images../calibImages --save_directory /data/models/Qwen/Qwen2.5-VL-7B-Instruct-w8a8 --w_bit8--a_bit8--device_type npu --trust_remote_code True --anti_method m2 --mindie_format

在Duo卡上量化会遇到“System Direct Memory Access (DMA) hardware execution error”报错
使用NPU多卡量化(特别是Qwen2.5-VL-72B这种大模型),先配置多卡环境变量(Atlas 300I Duo 系列产品不支持多卡量化):

exportASCEND_RT_VISIBLE_DEVICES=0,1exportPYTORCH_NPU_ALLOC_CONF=expandable_segments:False

设置完上述环境变量后可正常量化


MindIE 推理验证

curl-X POST"http://127.0.0.1:1025/v1/chat/completions"\-H"Content-Type: application/json"\-d'{ "model": "qwen2.5-vl", "messages": [ { "role": "user", "content": [ {"type": "text", "text": "描述这张图"}, { "type": "image_url", "image_url": {"url": "/data/VL/bus.jpg"} } ] } ], "max_tokens": 1024 }'

http://www.jsqmd.com/news/255035/

相关文章:

  • 【计算机毕业设计案例】基于SpringBoot+vue的山区特色农产品供销服务系统的设计与实现(程序+文档+讲解+定制)
  • 时序数据库选型指南:Apache IoTDB为何成大数据场景优选
  • 后悔!孩子近视后,大部分家长都犯了这样的错
  • 搭建 FreeIPA 服务器
  • Java——异常
  • 【计算机毕业设计案例】基于Java濒危物种公益网站的设计与实现基于SpringBoot濒危物种公益救助交流平台(程序+文档+讲解+定制)
  • 学习笔笔记——ARM 嵌入式系统与内核架构
  • Java计算机毕设之基于SpringBoot+vue的山区农户农产品供销服务系统的设计与实现(完整前后端代码+说明文档+LW,调试定制等)
  • 通信原理篇---AM/DSB/SSB/VSB解调
  • 深入研究 Golang 下 Kafka 的集群搭建与配置
  • Java毕设项目:基于SpringBoot+vue的山区农产品供销服务系统的设计与实现(源码+文档,讲解、调试运行,定制等)
  • 【数学趣题】二次方程的有理数根和共轭二次根式的处理
  • 【课程设计/毕业设计】基于SpringBoot + Vue的影院线上购票管理平台基于SpringBoot+Vue的影视购票平台的设计与实现【附源码、数据库、万字文档】
  • 【课程设计/毕业设计】基于SpringBoot + Vue的影院线上购票管理平台基于SpringBoot+Vue的影视购票平台的设计与实现【附源码、数据库、万字文档】
  • 把祝福写成一首歌:10 个「Song」主题网站,送给生命里最重要的人
  • 【课程设计/毕业设计】基于SpringBoot+vue的山区农产品产销山区农产品供销服务系统的设计与实现【附源码、数据库、万字文档】
  • 【课程设计/毕业设计】基于SpringBoot+vue的山区农产品产销山区农产品供销服务系统的设计与实现【附源码、数据库、万字文档】
  • AI长期记忆存储方案对比:哪种最适合你的应用
  • 【多线程编程】CompletableFuture 使用指南(基础篇):从原理到 API
  • 【毕业设计】基于SpringBoot+vue的山区农产品供销服务系统的设计与实现(源码+文档+远程调试,全bao定制等)
  • 【Java多并发编程】CompletableFuture 使用指南(实战篇):从场景到优化
  • Keil MDK-ARM 540 超详细下载安装激活教程攻略:嵌入式开发新手零失败教程(2026 实测)
  • 告别堆叠,拥抱统一:金仓数据库“多模一体”开启文档处理新范式
  • Java毕设选题推荐:基于SpringBoot+vue的农产品供应链管理系统设计与开发 山区农产品供销服务系统的设计与实现【附源码、mysql、文档、调试+代码讲解+全bao等】
  • 基于 Flutter × OpenHarmony 构建高质感专辑封面区域实践
  • 2026必备!继续教育TOP8AI论文网站测评与推荐
  • 程序员如何系统入门Vibe Coding?
  • 导师推荐2026 AI论文工具TOP9:继续教育写作全攻略
  • 【实测好用】禁止windows更新工具,一键彻底关闭Win11自动更新工具
  • Claude Code 插件 Skill-Creator 使用说明