当前位置：首页 > news >正文

ms-swift微调框架实战：10分钟搞定Qwen2.5-7B模型LoRA微调与合并

news 2026/6/26 3:07:58

ms-swift微调框架实战：10分钟搞定Qwen2.5-7B模型LoRA微调与合并

1. 前言

在当今大模型技术快速发展的背景下，如何高效地对大型语言模型进行微调成为了许多开发者和研究者的关注焦点。本文将介绍如何使用ms-swift框架，在单卡环境下快速完成Qwen2.5-7B模型的LoRA微调与权重合并。

ms-swift是魔搭社区提供的大模型微调部署框架，支持600+纯文本大模型和300+多模态大模型的训练、推理、评测、量化与部署全流程。通过本文的实战指南，您将掌握：

使用ms-swift进行LoRA微调的基本流程
微调后模型的权重合并方法
实际部署和推理的技巧

2. 环境准备

2.1 硬件要求

GPU: NVIDIA Tesla V100 32GB或同等性能显卡
显存: 至少22GB可用显存
CUDA版本: 12.2或更高

2.2 软件安装

首先创建并激活conda环境：

conda create --name swift python=3.10 conda activate swift

然后安装ms-swift框架：

pip install 'ms-swift[all]' -U -i https://pypi.tuna.tsinghua.edu.cn/simple

2.3 模型下载

从ModelScope或Hugging Face下载Qwen2.5-7B-Instruct模型：

# ModelScope下载 git clone https://www.modelscope.cn/qwen/Qwen2.5-7B-Instruct.git # 或Hugging Face下载 git lfs install git clone https://huggingface.co/Qwen/Qwen2.5-7B-Instruct

3. LoRA微调实战

3.1 微调命令

使用以下命令启动LoRA微调：

CUDA_VISIBLE_DEVICES=0 \ swift sft \ --model Qwen/Qwen2.5-7B-Instruct \ --train_type lora \ --dataset 'AI-ModelScope/alpaca-gpt4-data-zh#500' \ 'AI-ModelScope/alpaca-gpt4-data-en#500' \ 'swift/self-cognition#500' \ --torch_dtype bfloat16 \ --num_train_epochs 1 \ --per_device_train_batch_size 1 \ --per_device_eval_batch_size 1 \ --learning_rate 1e-4 \ --lora_rank 8 \ --lora_alpha 32 \ --target_modules all-linear \ --gradient_accumulation_steps 16 \ --eval_steps 50 \ --save_steps 50 \ --save_total_limit 2 \ --logging_steps 5 \ --max_length 2048 \ --output_dir output \ --system 'You are a helpful assistant.' \ --warmup_ratio 0.05 \ --dataloader_num_workers 4 \ --model_author swift \ --model_name swift-robot

3.2 参数说明

--model: 指定基础模型路径
--train_type lora: 使用LoRA微调方法
--dataset: 使用的训练数据集
--lora_rank和--lora_alpha: LoRA相关参数
--target_modules all-linear: 对所有线性层应用LoRA
--gradient_accumulation_steps 16: 梯度累积步数，有效增大batch size

3.3 微调过程监控

微调过程中会输出类似以下日志：

Train: 100%|██████████| 873/873 [09:34<00:00, 1.69it/s] {'eval_loss': nan, 'eval_acc': 0.023, 'eval_runtime': 1.64, 'epoch': 0.92}

训练完成后，模型权重会保存在output目录下。

4. 模型权重合并

4.1 推理时合并

在推理时直接合并LoRA权重：

CUDA_VISIBLE_DEVICES=0 \ swift infer \ --ckpt_dir output/vx-xxx/checkpoint-xxx \ --merge_lora true \ --infer_backend vllm \ --max_model_len 8192

此方法会在内存中合并权重，不会保存合并后的模型。

4.2 单独合并并保存

如果需要保存合并后的模型，使用export命令：

swift export \ --ckpt_dir output/vx-xxx/checkpoint-xxx \ --merge_lora true

合并后的模型会保存在checkpoint-xxx-merged目录中。

4.3 合并过程解析

合并过程主要完成以下工作：

加载基础模型和LoRA适配器权重
将LoRA权重合并到基础模型中
保存合并后的完整模型

合并后的模型目录包含：

config.json: 模型配置文件
model.safetensors: 合并后的模型权重
generation_config.json: 生成配置

5. 模型部署与推理

5.1 使用vLLM加速推理

安装vLLM依赖：

pip install vllm -i https://pypi.tuna.tsinghua.edu.cn/simple

启动推理服务：

CUDA_VISIBLE_DEVICES=0 \ swift deploy \ --model output/vx-xxx/checkpoint-xxx-merged \ --infer_backend vllm

5.2 Web界面交互

启动Web UI:

swift web-ui \ --model output/vx-xxx/checkpoint-xxx-merged

5.3 Python API调用

from swift.llm import PtEngine engine = PtEngine(model_id_or_path="output/vx-xxx/checkpoint-xxx-merged") response = engine.chat("你好，你是谁？") print(response)