当前位置: 首页 > news >正文

大模型量化-rr

from awq import AutoAWQForCausalLM
from transformers import AutoTokenizer

model_path = "./Qwen3.6-27B" # 替换为你下载的原始模型路径
quant_path = "./models/Qwen3.6-27B-AWQ-Local"

# 1. 加载模型与分词器
model = AutoAWQForCausalLM.from_pretrained(model_path, trust_remote_code=True)
tokenizer = AutoTokenizer.from_pretrained(model_path, trust_remote_code=True)

# 2. 配置 AWQ 量化参数
quant_config = {
"zero_point": True,
"q_group_size": 128,
"w_bit": 4,
"version": "GEMM"
}

# 3. 执行量化(这一步极度消耗内存,请盯紧系统资源)
print("开始本地量化,请耐心等待...")
model.quantize(tokenizer, quant_config=quant_config)

# 4. 保存量化后的模型
print("保存量化模型中...")
model.save_quantized(quant_path)
tokenizer.save_pretrained(quant_path)
print("本地量化完成!")

http://www.jsqmd.com/news/1106821/

相关文章:

  • MES如何对接PLC?从OPC UA、Modbus到MQTT,一文讲透设备数据采集架构(附系统架构图)
  • 自动化Web性能测试:从核心指标到CI/CD实践
  • 拍卖系统架构拆解:从用户端到竞价引擎需要哪些核心功能?
  • 国内可用电商AI作图工具技术横评与选型方案:从实测数据到自动化工作流
  • 现在,我们可以通过ILDASM工具(一款查看程序集IL代码的软件,在Microsoft SDKs目录中的子目录中)来查看该程序集的元数据表和Main方法中间码。
  • 技术Leader备考PMP:从交付实践到方法论的4个关键转换
  • 慈溪珠宝定制哪家靠谱
  • Java毕设项目:基于 SpringBoot 的医药器械库存与销售管控系统的设计与实现 基于 SpringBoot 的智慧医疗用品电商销售系统 (源码+文档,讲解、调试运行,定制等)
  • 打爆散度、旋度、梯度的小狗头
  • lru记录的是对象最后一次被命令程序访问的时间,占据的比特数不同的版本有所不同(如4.0版本占24比特,2.6版本占22比特)。
  • 计算机Java毕设实战-基于 SpringBoot 的潮玩手办线上购物商城系统的设计与实现 基于 SpringBoot 的二次元周边商品交易系统【完整源码+LW+部署说明+演示视频,全bao一条龙等】
  • LV3296与PIC24HJ256GP610嵌入式数据采集系统设计
  • 3步掌握WeChatMsg:让你的聊天记忆永远留存
  • 2026年国产TF卡品牌哪家好?深度评测与选购指南
  • Hopper Disassembler逆向实战:从Mach-O静态分析到动态调试
  • 七部门力挺“AI一人公司”:风口之下,我们该如何重塑个体的商业价值?
  • 瑞芯微RV1126B开发板(EASY-EAI-PI2) OCR文字识别
  • Python实现AES-256加解密:从原理到实战的完整指南
  • KES数据库国产化全栈适配与迁移改造落地规范
  • 什么是认知:一套“离散-连续混合演化”的逻辑
  • 【技术解析】非标记法靶标筛选——DARTS-MS/CETSA-MS/LiP-MS 技术原理、适用场景一文理清
  • 毫米级高级精度RFID定位读卡器CK-PR09系列应用与解决方案
  • 工程现场施工管理系统怎么选?落地避坑实用指南
  • Axure RP中文界面汉化终极指南:3分钟完成专业原型设计工具本地化
  • AI集群的Scale-out与Scale-up:解构“万卡互联”与“超节点”的网络架构
  • MinIO是什么?和阿里云OSS有什么区别?
  • 一体机的散热技术是如何突破空间限制的?
  • 射频芯片晶圆级测试
  • 不是技术也能看懂云计算,大数据,人工智能
  • 离职前对项目进行复盘