当前位置：首页 > news >正文

模型合并，转换，量化压缩，部署

news 2026/7/6 8:33:22

训练好的LoRA适配器→模型合并→转换为GGUF→量化压缩→部署。

model_name_or_path: /home/aistudio/text_lora/models/Qwen/Qwen3-4B-Instruct-2507 # 你的基础模型路径 adapter_name_or_path: output/qwen3-4b-sft-v9 # 你的LoRA适配器输出路径 template: qwen # 使用你模型对应的template，如qwen finetuning_type: lora # 微调方式，与你训练时一致 export_dir: models/qwen3-4b-merged # 合并后模型的保存路径 export_size: 4 # 单文件大小上限，单位为GB (可选) export_device: cpu # 导出计算设备，推荐cpu (可选) export_legacy_format: false # 是否使用旧格式 (可选)

conda activate /home/aistudio/work/my_conda_envs/llamafactory

执行命令：

llamafactory-cli export merge_config.yaml

合并后的目录如下：

git clone https://git.ustc.edu.cn/USTC-OS-Lab/llama.cpp

cd llama.cpp

cmake -B build

cmake --build build --config Release -j --target llama-quantize

开始转换

进入llama.cpp目录，执行转换命令。

基础转换 (FP16)：首先将合并后的模型转换为 FP16 精度的 GGUF 文件。

python convert_hf_to_gguf.py /home/aistudio/text_lora/LLaMA-Factory/models/qwen3-4b-merged/ --outfile /home/aistudio/llama.cpp/qwen3-4b-f16.gguf --outtype f16

量化压缩 (Q4_K_M)：使用llama-quantize工具对上一步生成的 FP16 文件进行量化，以减小模型体积并提升推理速度。

./build/bin/llama-quantize /home/aistudio/llama.cpp/qwen3-4b-f16.gguf /home/aistudio/llama.cpp/qwen3-4b-q4_k_m.gguf Q4_K_M

查看全文

http://www.jsqmd.com/news/767670/

别再只盯着TCP了！用Wireshark抓包，带你亲手拆解UDP数据报的‘信封’（附校验和计算过程）

音频深度学习工具箱：从梅尔频谱到PyTorch实战

告别驱动烦恼：在Ubuntu 22.04上5分钟搞定CH343串口驱动安装与开机自启

从玩具飞机到精密制造：拆解Real3D-AD数据集背后的高精度扫描与标注实战

C语言轻量级工具库GlibClaw：模块化设计与工程实践指南

避开命令行！在VMware vCenter 8.0图形化界面里搞定SSL证书续期全流程

别再让大模型加载卡脖子：实测对比device_map的四种策略，教你选对‘balanced_low_0’

魔兽地图格式转换工具w3x2lni：3种格式自由切换的完整指南

2026届必备的五大AI写作神器推荐榜单

ClaraVerse：模块化多智能体仿真框架构建与实战指南

HTTPS、SSH登录、数字签名… 一文搞懂RSA、AES这些加密算法到底用在哪了

3分钟永久备份QQ空间：GetQzonehistory完整数据导出指南

XOutput终极指南：3步让旧游戏手柄在PC上重获新生！

爬虫餐饮类数据分析

如何安全永久保存微信聊天记录？WeChatMsg开源工具深度解析

Stata实操：别再乱用标准误了！手把手教你根据数据特征选择稳健标准误（附代码对比）

Windows 10/11 OpenClaw 2.6.4 一键部署完整教程

从零到点亮LED：手把手教你用MounRiver Studio玩转CH32V307评估板（附完整工程代码）

基于Python的飞书机器人开发：从事件驱动到生产部署全解析

STM32F407外扩SRAM实战：用CubeMX配置FSMC驱动IS62WV51216，解决内存不够用的问题

本地部署Meeting-to-Text：一条命令实现会议录音自动转录与说话人分离

Cortex-R82调试架构与CoreSight实践指南

基于RAG架构的YouTube视频智能问答系统：从原理到工程实践

固态雷达适配LIO-SAM的另一种思路：不依赖CustomMsg，直接改造特征提取模块

ColabFold：免费在线蛋白质结构预测，让科研门槛归零

飞腾ARM服务器离线部署指南：用HTTPD/Nginx在银河麒麟V10 SP2上搭建私有Yum源

5分钟终极指南：如何用Unpaywall一键解锁学术论文付费墙

农村污水处理如何实现远程无人值守？基于映翰通 IG502 的智能联网方案实践

AI写论文不用愁！4款AI论文生成利器，全方位助力论文创作

HoRain云--Zig函数：现代系统编程的利器

相关文章：