当前位置：首页 > news >正文

LoRA 部署：微调后的模型怎么上线

news 2026/7/18 20:11:50

本文基于昇腾CANN和昇腾NPU，围绕 cann-recipes-infer 仓库的相关技术展开。

LoRA 训练完出来两个东西——基础模型权重不动，外加一个小 rank 矩阵。部署时你不能直接丢原始权重，LoRA 矩阵要合并进去或者通过算子注入。CANN 上 LoRA 部署有两种路子：权重合并（Merge）和动态注入（Runtime LoRA）。

LoRA 的本质

# LoRA 训练的产出——两个小矩阵classLoraLayer(torch.nn.Module):""" 原始层: y = Wx LoRA: y = Wx + BAx B: [out_dim, rank], A: [rank, in_dim], rank << dim """def__init__(self,base_weight,rank=8,alpha=16):super().__init__()self.W=base_weight# 冻结，不更新self.A=torch.nn.Linear(base_weight.shape[1],rank,bias=False)self.B=torch.nn.Linear(rank,base_weight.shape[0],bias=False)self.scale=alpha/rank# 初始化：A 用高斯，B 用 0torch.nn.init.normal_(self.A.weight,std=0.02)torch.nn.init.zeros_(self.B.weight)defforward(self,x):# LoRA 分支：x → A → B → scale，加到主路lora_out=self.B(self.A(x))*self.scalereturnself.W(x)+lora_out# 训练完得到 A、B 矩阵# rank=8, dim=4096 → A: [8, 4096], B: [4096, 8] → 共 65K 参数# 原始层 W 有 4096×4096 ≈ 16.8M 参数# LoRA 只改 0.4% 的参数

部署时两难：跑推理时每个 Forward 都要算Wx + BAx，多了两次小 MatMul。合并的话，丢掉了切换任务的能力。

方案一：权重合并

# Merge——把 BA 加进 W，推理不感知 LoRAdefmerge_lora_to_weight(base_weight,lora_A,lora_B,alpha,rank):""" 把 LoRA 矩阵合并到原始权重 W_merged = W + (B @ A) * (alpha / rank) 合并后模型结构和原始模型完全一样。 推理代码不需要知道 LoRA 的存在。 """# B @ A: [out_dim, rank] @ [rank, in_dim] = [out_dim, in_dim]delta=torch.mm(lora_B.weight.data,lora_A.weight.data)delta=delta*(alpha/rank)merged_weight=base_weight.clone()merged_weight+=deltareturnmerged_weight# 使用方法merged_w=merge_lora_to_weight(model.layers[0].self_attn.q_proj.weight,lora_modules["q_proj"].A.weight,lora_modules["q_proj"].B.weight,alpha=16,rank=8)# 推理时直接换权重——代码没变# model.layers[0].self_attn.q_proj.weight = merged_w

合并后推理路径跟原始模型一模一样——零额外开销。代价是每换一个任务要重新 Merge 一遍，生成一个新的 OM 模型文件。

方案二：CANN 动态注入

// AscendCL 上做 Runtime LoRA——不合并，用额外的 MatMulclassRuntimeLoRAExecutor{// 加载基础模型uint32_tmodel_id;aclmdlDesc*model_desc;// LoRA 参数——存在 Device 上std::vector<LoraAdapter>adapters;structLoraAdapter{void*a_matrix_dev;// [rank, dim] 存 Devicevoid*b_matrix_dev;// [dim, rank] 存 Device};voidExecuteWithLoRA(void*input,void*output,constchar*task_name){// 先跑基础模型aclmdlExecute(model_id,input,output);// 根据 task_name 选 LoRA 适配器LoraAdapter&lora=adapters[task_name];// 在某个 Attention 层的输出上追加 LoRA 分支// 需要知道目标层的输出 Tensor 地址void*layer_out=GetLayerOutput(model_id,"self_attn.q_proj");// LoRA 分支：x → A → B → scale → addvoid*hidden_buf=aclrtMalloc(hidden_dim*sizeof(float));void*rank_buf=aclrtMalloc(rank*sizeof(float));// x @ A^T: [1, dim] @ [dim, rank] = [1, rank]aclblasGemmEx(rank_buf,layer_out,lora.a_matrix_dev,1,rank,dim,ACL_TRANS_N,ACL_TRANS_N,ALPHA,0.0f,ACL_FLOAT);// rank_out @ B^T: [1, rank] @ [rank, dim] = [1, dim]aclblasGemmEx(hidden_buf,rank_buf,lora.b_matrix_dev,1,dim,rank,ACL_TRANS_N,ACL_TRANS_N,alpha/rank,1.0f,ACL_FLOAT);// beta=1 做累加// 结果已经在 hidden_buf 里累加到原始输出了}};

动态注入的好处是切换任务不用换模型，换个 adapter 指针就行。CANN 上利用aclblasGemmEx的小矩阵 API 做 LoRA 分支，rank=8 的矩阵乘法在 NPU 上的开销约 0.02ms——可以忽略。

部署选型建议

场景	选 Merge	选 Runtime LoRA
单任务部署	✅ 性能最好	❌ 有额外开销
多租户不同 LoRA	❌ 要存多份	✅ 切换快
小 Batch 在线服务	✅	✅
大 Batch 离线推理	✅	❌ 显存碎片多