当前位置: 首页 > news >正文

模型合并,转换,量化压缩,部署

训练好的LoRA适配器模型合并转换为GGUF量化压缩部署

model_name_or_path: /home/aistudio/text_lora/models/Qwen/Qwen3-4B-Instruct-2507 # 你的基础模型路径 adapter_name_or_path: output/qwen3-4b-sft-v9 # 你的LoRA适配器输出路径 template: qwen # 使用你模型对应的template,如qwen finetuning_type: lora # 微调方式,与你训练时一致 export_dir: models/qwen3-4b-merged # 合并后模型的保存路径 export_size: 4 # 单文件大小上限,单位为GB (可选) export_device: cpu # 导出计算设备,推荐cpu (可选) export_legacy_format: false # 是否使用旧格式 (可选)

conda activate /home/aistudio/work/my_conda_envs/llamafactory

执行命令:

llamafactory-cli export merge_config.yaml

合并后的目录如下:

git clone https://git.ustc.edu.cn/USTC-OS-Lab/llama.cpp

cd llama.cpp

cmake -B build

cmake --build build --config Release -j --target llama-quantize

开始转换

进入llama.cpp目录,执行转换命令。

  1. 基础转换 (FP16):首先将合并后的模型转换为 FP16 精度的 GGUF 文件。

    python convert_hf_to_gguf.py /home/aistudio/text_lora/LLaMA-Factory/models/qwen3-4b-merged/ --outfile /home/aistudio/llama.cpp/qwen3-4b-f16.gguf --outtype f16

量化压缩 (Q4_K_M):使用llama-quantize工具对上一步生成的 FP16 文件进行量化,以减小模型体积并提升推理速度。

./build/bin/llama-quantize /home/aistudio/llama.cpp/qwen3-4b-f16.gguf /home/aistudio/llama.cpp/qwen3-4b-q4_k_m.gguf Q4_K_M

http://www.jsqmd.com/news/767670/

相关文章:

  • 别再只盯着TCP了!用Wireshark抓包,带你亲手拆解UDP数据报的‘信封’(附校验和计算过程)
  • 音频深度学习工具箱:从梅尔频谱到PyTorch实战
  • 告别驱动烦恼:在Ubuntu 22.04上5分钟搞定CH343串口驱动安装与开机自启
  • 从玩具飞机到精密制造:拆解Real3D-AD数据集背后的高精度扫描与标注实战
  • C语言轻量级工具库GlibClaw:模块化设计与工程实践指南
  • 避开命令行!在VMware vCenter 8.0图形化界面里搞定SSL证书续期全流程
  • 别再让大模型加载卡脖子:实测对比device_map的四种策略,教你选对‘balanced_low_0’
  • 魔兽地图格式转换工具w3x2lni:3种格式自由切换的完整指南
  • 2026届必备的五大AI写作神器推荐榜单
  • ClaraVerse:模块化多智能体仿真框架构建与实战指南
  • HTTPS、SSH登录、数字签名… 一文搞懂RSA、AES这些加密算法到底用在哪了
  • 3分钟永久备份QQ空间:GetQzonehistory完整数据导出指南
  • XOutput终极指南:3步让旧游戏手柄在PC上重获新生!
  • 爬虫餐饮类数据分析
  • 如何安全永久保存微信聊天记录?WeChatMsg开源工具深度解析
  • Stata实操:别再乱用标准误了!手把手教你根据数据特征选择稳健标准误(附代码对比)
  • Windows 10/11 OpenClaw 2.6.4 一键部署完整教程
  • 从零到点亮LED:手把手教你用MounRiver Studio玩转CH32V307评估板(附完整工程代码)
  • 基于Python的飞书机器人开发:从事件驱动到生产部署全解析
  • STM32F407外扩SRAM实战:用CubeMX配置FSMC驱动IS62WV51216,解决内存不够用的问题
  • 本地部署Meeting-to-Text:一条命令实现会议录音自动转录与说话人分离
  • Cortex-R82调试架构与CoreSight实践指南
  • 基于RAG架构的YouTube视频智能问答系统:从原理到工程实践
  • 固态雷达适配LIO-SAM的另一种思路:不依赖CustomMsg,直接改造特征提取模块
  • ColabFold:免费在线蛋白质结构预测,让科研门槛归零
  • 飞腾ARM服务器离线部署指南:用HTTPD/Nginx在银河麒麟V10 SP2上搭建私有Yum源
  • 5分钟终极指南:如何用Unpaywall一键解锁学术论文付费墙
  • 农村污水处理如何实现远程无人值守?基于映翰通 IG502 的智能联网方案实践
  • AI写论文不用愁!4款AI论文生成利器,全方位助力论文创作
  • HoRain云--Zig函数:现代系统编程的利器