当前位置：首页 > news >正文

《AI大模型应用开发实战从入门到精通共60篇》024、PEFT实战：用LoRA在单卡上微调LLaMA模型

news 2026/4/28 22:09:46

024、PEFT实战：用LoRA在单卡上微调LLaMA模型

上周帮团队调一个LLaMA-7B的微调任务，同事在A100上跑了三天，OOM了三次。我过去一看，代码里把整个模型参数都设成了requires_grad=True，optimizer里塞了70亿个参数——这能不炸吗？后来换成LoRA，单卡V100，16G显存，跑了不到两小时，效果还比全参数微调好了一截。今天就把这套实战流程拆开揉碎了讲清楚。

为什么LoRA能救你的显存

先别急着上代码，理解LoRA的核心逻辑比调参重要。全参数微调相当于你要给整栋楼重新装修，LoRA只是在每层楼加了几根承重柱——它冻结原始权重，在Transformer的attention层插入低秩矩阵（通常是秩r=8或16）。假设原始权重矩阵是d×k，LoRA分解成d×r和r×k两个小矩阵，参数量从dk降到dr + rk。以LLaMA-7B的QKV投影为例，d=4096，k=4096，原始参数量约16M，LoRA只用40968*2≈65K，直接省了250倍。

这里踩过坑：别天真地以为LoRA只在attention层生效就够。实测发现，在LLaMA的gate_proj和up_proj上也加LoRA，对数学推理类任务提升明显。但down_proj加了反而掉点，可能是低秩瓶颈限制了信息压缩。

环境准备：别在CUDA版本上翻车

pipinstalltransformers==4.31.0 datasets accelerate peft bitsandbytes

注意transformers版本必须≥4.30，否则LlamaForCausalLM的from_pretrained不支持load_in_8bit。bitsandbytes在Windows上容易报错，建议直接上WSL2或者Linux。如果显存小于24G，务必加--load_in_8bit，但8bit量化后LoRA的精度会受影响——我试过在8bit基座上微调，MMLU分数掉了1.2个点。折中方案：用4bit量化加载基座，LoRA保持float16。

加载模型：一个参数省3GB显存

fromtransformersimportLlamaForCausalLM,LlamaTokenizerimporttorch model_name="decapoda-research/llama-7b-hf"# 别这样写：model = LlamaForCausalLM.from_pretrained(model_name)# 这样直接加载float32，7B模型占28GB显存，单卡根本扛不住model=LlamaForCausalLM.from_pretrained(model_name,torch_dtype=torch.float16,# 半精度，显存直接砍半device_map="auto",# 自动分配到多卡，单卡也能用load_in_8bit=True,# 8bit量化，再砍一半trust_remote_code=True# LLaMA需要这个，否则报错)

这里踩过坑：device_map="auto"在单卡上没问题，但如果你有多卡，它会自动把不同层分配到不同GPU。这时候LoRA的target_modules如果指定了所有attention层，反向传播时跨卡通信会炸。解决方案：手动指定device_map={"": 0}强制单卡，或者用accelerate的dispatch_model。

配置LoRA：r=8还是r=16？

frompeftimportLoraConfig,get_peft_model lora_config=LoraConfig(r=8,# 秩，8是安全起点，16适合复杂任务lora_alpha=32,# 缩放系数，通常设为2r，但32是经验值target_modules=["q_proj","k_proj","v_proj","o_proj","gate_proj","up_proj"],# 别漏了gate_proj和up_proj，LLaMA的FFN结构特殊lora_dropout=0.05,# 防止过拟合，但别超过0.1bias="none",# 不训练bias，省显存task_type="CAUSAL_LM"# 因果语言模型，别写成SEQ_2_SEQ)model=get_peft_model(model,lora_config)model.print_trainable_parameters()# 输出：trainable params: 4,194,304 || all params: 6,742,609,920 || trainable: 0.062%

看到0.062%这个数字了吗？70亿参数里只训练了400万，这就是LoRA的魔力。但注意：lora_alpha不是学习率，它是缩放因子。前向传播时，LoRA的输出会乘以lora_alpha / r。如果r=8，lora_alpha=32，相当于缩放4倍。这个值调太大容易梯度爆炸，调太小微调效果不明显。

数据准备：别让tokenizer坑了你

fromdatasetsimportload_dataset dataset=load_dataset("json",data_files="train.jsonl")# 数据格式：{"instruction": "...", "output": "..."}deftokenize_function(examples):# 别这样写：直接拼接instruction和output# 需要加上LLaMA的对话模板texts=[]forinst,outinzip(examples["instruction"],examples["output"]):text=f"### Instruction:\n{inst}\n\n### Response:\n{out}"texts.append(text)tokenizer=LlamaTokenizer.from_pretrained(model_name)tokenizer.pad_token=tokenizer.eos_token# LLaMA没有pad_token，必须手动设置# 这里踩过坑：max_length设太小会截断关键信息，设太大显存爆炸# 根据你的数据分布，统计一下最长样本长度tokenized=tokenizer(texts,truncation=True,padding="max_length",max_length=512,# 先设512，后续根据显存调整return_tensors="pt")# 因果LM需要labels，通常和input_ids相同tokenized["labels"]=tokenized["input_ids"].clone()# 但要把padding部分的labels设为-100，否则loss会计算无意义的部分tokenized["labels"][tokenized["attention_mask"]==0]=-100returntokenized tokenized_dataset=dataset.map(tokenize_function,batched=True)

别这样写：直接用tokenizer(examples["text"])而不处理padding。LLaMA的tokenizer默认没有pad_token，会报错。另外，max_length不要设成2048——那是推理时的长度，训练时设这么长，单卡V100直接OOM。我一般先统计数据集的95分位长度，再向上取整到128的倍数。

训练配置：梯度累积是救命稻草

fromtransformersimportTrainingArguments,Trainer training_args=TrainingArguments(output_dir="./llama-lora-checkpoints",per_device_train_batch_size=4,# 先试4，OOM就降到2gradient_accumulation_steps=8,# 等效batch_size=4*8=32learning_rate=2e-4,# LoRA的学习率通常比全参数大10倍warmup_steps=100,num_train_epochs=3,logging_steps=10,save_steps=500,evaluation_strategy="steps",eval_steps=500,fp16=True,# 混合精度，必须开optim="adamw_torch",# 别用adamw_8bit，虽然省显存但收敛慢lr_scheduler_type="cosine",report_to="none",# 不想装wandb就设成noneremove_unused_columns=False,# 保留原始数据列，方便调试gradient_checkpointing=True,# 梯度检查点，用时间换显存ddp_find_unused_parameters=False# 单卡训练不用管，多卡必须设)

这里踩过坑：gradient_checkpointing=True会显著降低训练速度（大约慢30%），但能省下40%的显存。如果你的显存刚好够，可以关掉它换更快的训练。另外，per_device_train_batch_size不要贪大，我试过设成8，结果显存占用飙到23.8G，差一点就OOM。设成4配合梯度累积，稳定在18G左右。

开始训练：盯着loss曲线

trainer=Trainer(model=model,args=training_args,train_dataset=tokenized_dataset["train"],eval_dataset=tokenized_dataset["test"],data_collator=None,# 用默认的collator，因为我们已经padding好了)# 别直接trainer.train()就跑，先看看模型能不能正常forward# 写个简单测试：test_input=tokenizer("### Instruction:\nHello\n\n### Response:\n",return_tensors="pt")test_output=model(**test_input)print(test_output.loss)# 应该输出一个非NaN的值# 没问题就开跑trainer.train()

训练过程中，loss应该从3.x左右开始，逐步下降到1.x。如果loss一开始就小于0.5，说明数据泄露了（比如验证集混进了训练集）。如果loss不降反升，检查学习率是不是太大，或者lora_alpha设得太高。

保存和加载：别只保存adapter

# 保存LoRA权重（只有几MB）model.save_pretrained("./lora-adapter")# 加载时：frompeftimportPeftModel base_model=LlamaForCausalLM.from_pretrained(model_name,torch_dtype=torch.float16,device_map="auto")lora_model=PeftModel.from_pretrained(base_model,"./lora-adapter")

别这样写：只保存model.state_dict()，然后下次加载时重新初始化LoRA再加载。因为PeftModel的state_dict里包含了基座模型的引用，直接保存会存下整个模型。正确做法是用save_pretrained，它只保存adapter的权重和配置文件。

推理测试：看看微调效果

defgenerate_response(instruction):prompt=f"### Instruction:\n{instruction}\n\n### Response:\n"inputs=tokenizer(prompt,return_tensors="pt").to("cuda")# 这里踩过坑：do_sample=True时temperature设太低会生成重复文本outputs=model.generate(**inputs,max_new_tokens=256,temperature=0.7,top_p=0.9,do_sample=True,repetition_penalty=1.1# 防止重复)response=tokenizer.decode(outputs[0],skip_special_tokens=True)returnresponse.split("### Response:\n")[-1]print(generate_response("用Python写一个快速排序"))

如果生成的文本全是重复的“好的好的好的”，检查repetition_penalty是不是设成了1.0（默认值）。如果输出全是乱码，检查tokenizer的add_eos_token是不是设成了True——LLaMA的tokenizer默认不加eos，但微调时如果加了，推理时就会在第一个token后停止。

个人经验：LoRA调参的五个血泪教训

r值不是越大越好。我试过r=64，参数量翻了8倍，但MMLU分数只涨了0.3%，训练时间却长了3倍。对于大多数任务，r=8到16是最优区间。如果任务特别复杂（比如代码生成），可以试试r=32，但要做好过拟合的准备。
target_modules要覆盖全。很多教程只写q_proj和v_proj，但LLaMA的FFN层（gate_proj, up_proj, down_proj）占了模型参数的大头。我做过消融实验：只微调attention层，在GSM8K数学题上准确率只有42%；加上gate_proj和up_proj后，直接跳到58%。down_proj加了反而掉到55%，可能是低秩分解破坏了信息整合。
学习率要大胆。全参数微调通常用1e-5，LoRA可以直接上2e-4甚至5e-4。因为LoRA只更新少量参数，梯度信号弱，需要更大的步长。但注意配合warmup，前100步从0线性增长到目标学习率，防止初期震荡。
数据质量比数量重要。我用500条高质量指令数据微调，效果比5000条噪声数据好得多。LoRA的参数量少，拟合能力有限，喂垃圾数据只会学到垃圾模式。建议每条数据都人工检查，确保instruction和response对齐。
混合精度训练必须开。fp16不仅省显存，还能加速训练。但注意loss可能变成NaN——如果遇到，检查数据里有没有特别长的序列，或者学习率是不是太大。实在不行就换bf16（如果显卡支持），bf16的动态范围更大，不容易溢出。

最后说句实在话：LoRA不是万能药。如果你的任务需要模型学习全新的知识（比如从零学一门编程语言），LoRA的低秩瓶颈会限制效果。这时候可以考虑DoRA（Weight-Decomposed Low-Rank Adaptation）或者AdaLoRA（自适应秩分配），但那是另一个故事了。对于大多数指令微调场景，LoRA+单卡V100，足够你玩转7B模型了。

查看全文

http://www.jsqmd.com/news/715932/