当前位置：首页 > news >正文

Swift-All显存不足？LoRA+QLoRA轻量微调部署案例详解

news 2026/3/26 17:43:28

Swift-All显存不足？LoRA+QLoRA轻量微调部署案例详解

1. 引言：当大模型遇上显存瓶颈

想用Swift-All这个强大的工具来微调一个大模型，结果刚准备开始，系统就提示“显存不足”？这可能是很多朋友在尝试大模型微调时遇到的第一道坎。

Swift-All确实是个好东西，它就像一个万能工具箱，能帮你下载、训练、推理、评测、量化、部署各种大模型，支持的模型数量超过600个，多模态模型也有300多个。但功能强大也意味着对硬件的要求不低，尤其是显存。一个稍微大点的模型，动辄就需要几十GB甚至上百GB的显存，这对普通开发者来说，简直是天文数字。

难道显存不够，就真的玩不转大模型微调了吗？当然不是。今天，我们就来聊聊怎么用LoRA和QLoRA这两种“轻量级”微调方法，在有限的显存资源下，成功部署和微调大模型。我会用一个实际的案例，手把手带你走一遍流程，让你看完就能上手。

2. 理解LoRA与QLoRA：显存救星

在开始动手之前，我们先花几分钟，搞明白LoRA和QLoRA到底是什么，以及它们为什么能省显存。理解了这个，后面的操作就会清晰很多。

2.1 LoRA：给模型加“小补丁”

你可以把一个大模型想象成一本非常厚的百科全书。传统的微调方法，相当于要把整本书的每一页都重新抄写、修改一遍，这工作量（计算量）和需要的纸张（显存）自然非常大。

LoRA（Low-Rank Adaptation，低秩适应）的做法则聪明得多。它不去动那本厚厚的“原书”，而是额外准备几本非常薄的“便签本”（低秩矩阵）。当模型处理任务时，我们让“原书”和这些“便签本”一起工作。“便签本”里记录了针对当前特定任务需要做的微小调整。我们只训练这几本薄薄的“便签本”，而厚重的“原书”保持冻结不动。

这样一来，需要训练和存储的参数数量就大大减少了，可能只有原模型的百分之零点几，显存占用和计算开销自然就降下来了。训练完成后，我们只需要保存那几本“便签本”（LoRA权重），在推理时再把它和“原书”组合起来用就行。

2.2 QLoRA：进一步的“瘦身”压缩

QLoRA（Quantized Low-Rank Adaptation）在LoRA的基础上又进了一步。它觉得，光是加“便签本”还不够，那本厚重的“原书”本身占的地方（显存）还是太大了。

于是，QLoRA在加载“原书”的时候，先对它进行了一次“高精度压缩”（量化）。比如，把原本用32位浮点数表示的模型权重，压缩成用4位整数来表示。这就好比把一本精装大部头，压缩成了一本便携的口袋书，体积（显存占用）瞬间小了好几倍。

然后，在这个被压缩的“口袋书”基础上，我们再像LoRA一样，添加并训练那几本小小的“便签本”。在训练的关键计算步骤中，QLoRA会把“口袋书”临时还原成高精度格式进行计算，确保训练质量，但存储和大部分时间的前向传播都使用压缩格式。

简单总结一下区别：

LoRA：冻结大模型，只训练额外添加的一小部分参数（Adapter）。
QLoRA：先量化（压缩）大模型，再冻结它，然后训练额外添加的一小部分参数。QLoRA通常比LoRA更省显存。

理解了核心思想，我们接下来就进入实战环节。

3. 实战准备：环境与模型选择

为了演示整个过程，我们需要一个具体的场景。假设我们想微调一个模型，让它更好地理解和生成关于“编程代码助手”相关的对话。我们选择魔搭社区（ModelScope）上比较流行的Qwen2.5-7B-Instruct模型作为基础模型。它能力不错，但全量微调对显存要求很高。

我们的目标是在显存有限的GPU上（例如一张24GB显存的RTX 4090），使用Swift-All框架，通过QLoRA的方式对这个模型进行指令微调。

3.1 环境与资源评估

首先，你需要一个可以运行的环境。如果你在云平台（比如CSDN星图镜像广场提供的环境）操作，通常已经预置了Swift-All。如果是本地，你需要按照Swift-All的官方文档进行安装。

关键的一步是评估显存。运行以下命令可以快速查看GPU状态：

nvidia-smi

对于Qwen2.5-7B的QLoRA微调，一些经验性的配置和显存估算如下：

基础模型加载（4-bit量化）：约 4-6 GB
训练数据、优化器状态、梯度：约 2-4 GB（取决于批次大小）
QLoRA适配器参数：通常小于1 GB
系统预留：约 1-2 GB

总计：在批次大小（batch_size）设置合理的情况下（例如为4或8），24GB显存是足够进行QLoRA微调的。如果显存更小（比如16GB），你可能需要进一步减小批次大小，或者考虑更小的模型（如3B版本）。

3.2 准备训练数据

微调需要有“教材”。我们需要准备一个格式正确的数据集。Swift-All支持多种数据集格式，这里我们使用一个简单的JSON格式示例，模拟一些代码助手对话：

创建一个名为code_assistant_dataset.jsonl的文件，每行是一个JSON对象：

{"instruction": "写一个Python函数，计算斐波那契数列的第n项。", "output": "def fibonacci(n):\n if n <= 0:\n return \"请输入一个正整数。\"\n elif n == 1 or n == 2:\n return 1\n else:\n a, b = 1, 1\n for _ in range(3, n+1):\n a, b = b, a + b\n return b\n\n# 示例：打印前10项\nfor i in range(1, 11):\n print(fibonacci(i))"} {"instruction": "如何用JavaScript从URL中获取查询参数？", "output": "你可以使用 `URLSearchParams` API 来轻松获取查询参数。\n\nfunction getQueryParams(url) {\n const urlObj = new URL(url);\n const params = new URLSearchParams(urlObj.search);\n const result = {};\n for (const [key, value] of params) {\n result[key] = value;\n }\n return result;\n}\n\n// 使用示例\nconst url = \"https://example.com/page?name=John&age=30\";\nconsole.log(getQueryParams(url)); // 输出: { name: \"John\", age: \"30\" }"} {"instruction": "解释一下什么是RESTful API。", "output": "RESTful API 是一种遵循REST（Representational State Transfer，表述性状态转移）架构风格设计的API。它的核心思想是将网络上的资源（如用户、文章）视为可以通过URL访问的“对象”，并使用标准的HTTP方法（GET, POST, PUT, DELETE等）来操作这些资源。\n\n主要特点包括：\n1. **无状态**：每次请求都包含处理该请求所需的所有信息。\n2. **统一接口**：使用标准的HTTP方法和状态码。\n3. **资源导向**：通过URL标识资源。\n4. **可缓存**：响应应明确标示是否可缓存。\n5. **分层系统**：客户端通常不知道是否直接连接到最终服务器。\n\n例如：\n- `GET /users` 获取用户列表\n- `POST /users` 创建新用户\n- `GET /users/123` 获取ID为123的用户\n- `PUT /users/123` 更新用户123\n- `DELETE /users/123` 删除用户123"}

数据不需要很多，几十到几百条高质量的对话样本就能对模型行为产生显著影响。将准备好的数据集上传到你的工作环境目录中。

4. 使用Swift-All进行QLoRA微调

环境、模型、数据都准备好了，现在开始最核心的微调步骤。Swift-All提供了命令行和界面两种方式，这里我们使用更灵活、更透明的命令行方式。

4.1 编写训练配置文件

Swift-All通过配置文件来定义训练的所有参数。创建一个名为train_qlora.yaml的配置文件：

# 实验名称，用于标识本次训练 experiment_name: 'qwen2.5-7b-code-qlora' # 模型配置 model: model_type: qwen2.5-7b-instruct # 使用4位量化加载基础模型，这是QLoRA省显存的关键 load_in_4bit: true # 使用bnb的4位量化，并设置计算类型为float16以保证精度 bnb_4bit_compute_dtype: 'fp16' # 数据集配置 dataset: - code_assistant_dataset # 假设你的数据文件在当前目录，Swift-All内置了多种数据加载器，这里使用自定义的json文件 custom_train_dataset_path: ./code_assistant_dataset.jsonl # 数据集格式，指定我们使用的是 instruction-output 对 dataset_sample_argument: instruction: instruction output: output # 训练参数 train_args: # 轻量微调方法，指定为QLoRA sft_type: lora # 每个设备上的批次大小，根据你的显存调整（24GB显存可尝试8或16） per_device_train_batch_size: 8 # 梯度累积步数，模拟更大的批次大小 gradient_accumulation_steps: 2 # 学习率，QLoRA通常可以设置得稍大一些 learning_rate: 1e-4 # 训练轮数 num_train_epochs: 3 # 优化器 optim: adamw_torch # 学习率调度器 lr_scheduler_type: cosine # 每多少步报告一次日志 logging_steps: 10 # 每多少步保存一次检查点 save_steps: 200 # 最大输入序列长度 max_length: 1024 # LoRA/QLoRA 特定配置 lora: # LoRA的秩（rank），决定“便签本”的薄厚，越大能力越强但参数越多，通常8-64之间 r: 16 # LoRA的alpha参数，影响适配器输出的缩放 lora_alpha: 32 # 将LoRA模块应用到哪些层？通常是注意力机制的全连接层 target_modules: ['q_proj', 'k_proj', 'v_proj', 'o_proj', 'gate_proj', 'up_proj', 'down_proj'] # LoRA dropout，用于防止过拟合 lora_dropout: 0.05 # 输出配置 output_dir: './output/qwen2.5-7b-code-qlora'

这个配置文件定义了从数据、模型、训练策略到输出目录的所有细节。关键点在于load_in_4bit: true启用了QLoRA的量化加载，以及lora部分定义了我们要训练的“小补丁”的结构。

4.2 启动训练

在终端中，使用Swift-All的命令行工具启动训练。确保你的当前目录下有配置文件和数据集。

# 使用 swift 命令启动训练，指定配置文件 swift sft \ --model_id_or_path Qwen/Qwen2.5-7B-Instruct \ --model_revision master \ --dataset code_assistant_dataset \ --train_dataset_sample -1 \ --custom_train_dataset_path ./code_assistant_dataset.jsonl \ --dataset_test_ratio 0.1 \ --output_dir ./output/qwen2.5-7b-code-qlora \ --gradient_checkpointing true \ --learning_rate 1e-4 \ --num_train_epochs 3 \ --max_length 1024 \ --per_device_train_batch_size 8 \ --gradient_accumulation_steps 2 \ --lora_rank 16 \ --lora_alpha 32 \ --lora_dropout 0.05 \ --target_modules ALL \ --use_loftq false \ --load_in_4bit true \ --bnb_4bit_compute_dtype fp16 \ --logging_steps 10 \ --save_steps 200

参数解释：

--model_id_or_path: 指定基础模型，这里是从魔搭社区拉取。
--dataset和--custom_train_dataset_path: 指定我们的自定义数据集。
--dataset_test_ratio 0.1: 拿出10%的数据做验证集。
--gradient_checkpointing true: 开启梯度检查点，用计算时间换显存，能进一步节省显存。
--target_modules ALL: 一个便捷选项，自动将LoRA应用到模型所有合适的线性层上。
--load_in_4bit true和--bnb_4bit_compute_dtype fp16: 启用4位量化及计算精度。

运行这个命令后，Swift-All会自动下载模型（如果本地没有），然后开始训练。你会在终端看到损失（loss）逐渐下降的日志。训练时间取决于数据量、epoch数和你的硬件，对于几百条数据，在单卡上可能几十分钟到几小时就能完成。

4.3 训练过程监控与问题排查

训练开始后，你需要关注以下几点：

显存占用：再次运行nvidia-smi，确认显存占用在安全范围内（例如低于22GB，为系统留出空间）。
Loss曲线：观察训练损失是否在稳步下降，验证损失是否也同步下降或保持平稳。如果验证损失开始上升，可能是过拟合了，可以考虑提前停止或增加数据。
常见问题：
- Out of Memory (OOM)：如果报显存不足，尝试减小per_device_train_batch_size，或增加gradient_accumulation_steps来补偿。
- 下载模型慢：确保网络通畅，或者提前将模型下载到本地，然后修改--model_id_or_path为本地路径。
- 数据集格式错误：仔细检查JSONL文件的格式，确保每行都是合法的JSON，且字段名与配置中dataset_sample_argument指定的匹配。

训练完成后，所有的输出，包括最终的模型权重（主要是LoRA权重）和训练日志，都会保存在--output_dir指定的目录中。

5. 合并与推理：使用微调后的模型

训练得到的是独立的LoRA权重文件（通常很小，几十MB），而不是一个完整的大模型文件。要使用它，有两种方式：

5.1 方式一：动态加载LoRA权重进行推理（推荐）

这是最灵活的方式，无需修改原始大模型。Swift-All在推理时可以直接加载基础模型和对应的LoRA权重。

# 使用 swift 命令进行推理，指定基础模型和LoRA权重路径 swift infer \ --model_id_or_path Qwen/Qwen2.5-7B-Instruct \ --model_revision master \ --load_lora_weights ./output/qwen2.5-7b-code-qlora/checkpoint-xxx \ # 替换为你的具体checkpoint路径 --load_in_4bit true \ --bnb_4bit_compute_dtype fp16

运行后，会进入一个交互式界面。你可以输入指令，模型会结合LoRA的知识来回答：

输入指令 (输入`exit`退出): 帮我写一个快速排序的Python函数。

模型应该会生成一个比未微调前更符合“代码助手”风格和格式的排序函数。

5.2 方式二：合并权重导出完整模型

如果你需要将微调后的模型部署到不支持动态加载LoRA的环境（如一些特定的推理服务器），可以将LoRA权重合并到基础模型中，导出一个完整的、独立的模型文件。

# 使用 swift 命令导出合并后的模型 swift export \ --model_id_or_path Qwen/Qwen2.5-7B-Instruct \ --model_revision master \ --load_lora_weights ./output/qwen2.5-7b-code-qlora/checkpoint-xxx \ # 替换为你的checkpoint路径 --load_in_4bit false \ # 导出时通常不使用量化 --merge_lora true \ # 关键参数，执行合并 --save_dir ./merged_model_qwen2.5-7b-code

合并后的模型会保存在./merged_model_qwen2.5-7b-code目录中。这个模型文件会很大（例如7B的模型约14GB），但它包含了全部知识，可以直接像使用原始模型一样加载和推理。

6. 总结与建议

回顾整个流程，我们成功地在有限显存下，利用Swift-All框架和QLoRA技术，对Qwen2.5-7B模型进行了轻量微调。核心的省显存秘诀就在于“量化冻结大模型，只训练小参数”这个思想。

给实践者的几点建议：

从小开始：初次尝试时，使用一个非常小的数据集（50-100条）和较少的训练轮数（1-2轮），快速验证整个流程是否跑通，以及微调是否有效果。
监控显存：始终使用nvidia-smi或gpustat等工具监控显存使用情况，灵活调整批次大小（batch_size）和梯度累积步数。
数据质量至上：对于指令微调，高质量、多样化的指令-输出对数据比数据量更重要。清洗和构建好的数据集是成功的一半。
尝试不同配置：LoRA的秩（r）、作用层（target_modules）、学习率等超参数会影响效果。可以在小规模数据上尝试不同的组合，找到最适合你任务的配置。
利用Swift-All生态：Swift-All不仅支持训练，还支持评测（swift eval）。微调后，可以用它对模型在相关任务上的表现进行量化评估，科学地判断微调效果。