当前位置：首页 > news >正文

LISA动态子网训练：只更新关键参数实现高效微调

news 2026/7/2 22:30:14

LISA动态子网训练：只更新关键参数实现高效微调

在当前大模型应用加速落地的背景下，如何以更低的成本完成高质量微调，已成为从业者的共同挑战。一个70亿参数的LLM，若采用全参数微调，往往需要多张A100显卡并行运行，不仅成本高昂，还容易因过度拟合导致泛化能力下降。更棘手的是，在资源受限的边缘设备或快速迭代的研发场景中，这种“重装上阵”式的训练方式几乎不可行。

正是在这样的现实压力下，轻量级微调（PEFT）技术迅速崛起。而其中，LISA（Layer-wise Importance-based Subnetwork Adaptation）正以其“动态选择关键路径”的独特思路，逐渐从众多静态适配器方案中脱颖而出——它不再假设某个固定结构（如低秩矩阵）就能胜任所有任务，而是让模型在训练过程中“自己找出最该更新的部分”。

这听起来像是一种稀疏训练与微调的融合创新，但其工程实现和实际效果远比理论描述更具颠覆性。尤其是在ms-swift这类现代化训练框架的支持下，LISA 已不再是论文中的理想模型，而是可以一键启动、稳定运行的真实生产力工具。

LISA 的核心思想其实很直观：不是所有参数都同等重要，也不是同一组参数在整个训练过程中始终关键。因此，与其一开始就决定“我要改哪些层”，不如让数据说话，在训练中动态识别每层中最敏感、最具任务相关性的连接，并仅对这些子网络进行更新。

具体来说，LISA 将微调过程拆解为三个协同阶段：

首先是重要性初始化。训练刚开始时，系统会用一个小批量样本做一次前向+反向传播，收集各层权重的梯度幅值或权重变化敏感度作为初始评分依据。常用的指标包括基于泰勒展开的一阶近似 $\left|g \cdot w\right|$，或者直接使用梯度绝对值。这些分数反映了参数对损失函数的影响程度，是后续筛选的基础。

接着进入动态子网构建阶段。对于每一层线性变换（如FFN或Attention中的QKV投影），根据预设的稀疏率 $ s \in (0,1) $，保留重要性排名前 $ s\% $ 的连接。这些被选中的参数构成当前可训练子网，其余则冻结。这一机制通常通过一个二值掩码（mask）实现，即前向计算时将未激活的权重置零，反向传播时也仅对对应位置更新梯度。

最关键的一步在于周期性重评与更新。传统方法一旦选定参数就不再更改，而 LISA 每隔一定步数（例如每100~200步）重新评估一次重要性，并据此调整掩码结构。这意味着模型可以在早期探索通用特征表示，后期聚焦任务特定模式，形成一种“再发现-再优化”的闭环机制。

举个例子：在一个7B级别的LLaMA模型上启用5%稀疏率的LISA微调，理论上只需更新约3.5亿参数——虽然这个数字仍不小，但由于大量参数被有效冻结，显存占用可降低至原来的1/4甚至更低。实测表明，Qwen-7B结合LISA后，在单张A10（24GB）上即可顺利完成SFT任务，峰值显存仅为18.7GB，远低于全参数微调所需的80GB以上。

相比LoRA这类主流PEFT方法，LISA的优势不仅体现在参数效率上，更在于其动态适应能力。LoRA通过引入额外的低秩矩阵来间接修改原始权重，本质上是一种静态旁路结构；而LISA直接操作主干网络，允许关键路径随训练演进而迁移，从而更好地应对任务分布偏移或连续学习场景下的知识干扰问题。

这一点在多任务连续学习中尤为明显。当依次训练问答、摘要、翻译等多个任务时，传统微调极易引发灾难性遗忘——新任务覆盖旧知识。而LISA由于每次只扰动局部子网，不同任务倾向于激活不同的参数路径，天然具备一定的隔离性。配合任务路由机制，甚至可以实现“一个模型，多条通路”的灵活调度。

当然，动态性也带来了更高的实现复杂度。LISA需要在训练中持续监控和更新掩码状态，增加了控制逻辑开销。不过，像ms-swift这样的现代框架已经将其封装得极为简洁。

作为魔搭社区推出的全栈式大模型训练平台，ms-swift 不仅支持600多个纯文本模型和300多个多模态模型，还统一集成了 LoRA、QLoRA、DoRA、ReFT 和 LISA 等多种轻量微调技术。用户无需手动编写复杂的模块注入代码，只需一条命令即可启动LISA训练：

python cli.py \ --model_type qwen2-7b \ --peft_type lisa \ --lisa_sparsity 0.05 \ --lisa_update_freq 200 \ --dataset alpaca-en \ --num_train_epochs 3 \ --per_device_train_batch_size 4

这条指令背后，ms-swift 自动完成了模型加载、适配器注入、分布式策略配置、训练循环调度等一系列操作。更重要的是，它提供了完整的插件体系，允许开发者自定义重要性评估函数、掩码更新策略或与其他PEFT方法组合使用（如 LISA + QLoRA 或 LISA + DPO），极大提升了实验灵活性。

从系统架构看，ms-swift 构建了一个高度模块化的流水线：

[用户输入] ↓ [CLI / Web UI] ↓ SwiftModel → 加载模型（支持 ModelScope/HF/GitHub） ↓ Dataset Manager → 接入内置或自定义数据集 ↓ PEFT Injector → 注入 LISA 控制逻辑（自动识别目标层） ↓ Trainer（DDP/FSDP/DeepSpeed）→ 执行训练，按周期调用 update_mask ↓ Evaluator（EvalScope）→ 自动评测 MMLU/C-Eval 等基准 ↓ Exporter → 输出 SafeTensors/vLLM 兼容格式用于部署

整个流程可通过YAML文件声明式定义，确保结果可复现、配置易迁移。即使是非专业研究人员，也能通过/root/yichuidingyin.sh脚本进入交互菜单，选择模型、任务类型、数据集和超参后一键启动训练，真正实现了“无代码微调”。

但在实际应用中，我们也需注意一些关键设计考量：

稀疏率不宜过低或过高：低于1%可能导致表达能力不足，难以收敛；高于10%则失去轻量化意义。建议初始设置为3%~5%，根据任务复杂度微调。
更新频率应分阶段调整：初期可每100~200步更新一次掩码，帮助模型广泛探索；后期延长至500步以上，避免频繁切换影响稳定性。
推荐采用层粒度差异化配置：浅层侧重通用语义提取，可设更高稀疏率（如8%）；深层靠近输出端，任务相关性强，宜保留更多参数（如2%~3%）。
可与量化联合使用实现“双降”：先对模型进行GPTQ/AWQ量化至4bit，再施加LISA微调，进一步压缩显存和算力需求。
关注子网稳定性监控：记录每层活跃参数比例的变化曲线，若出现剧烈震荡，可能需引入平滑项或改用移动平均的重要性评分机制。

值得一提的是，尽管上述代码示例展示了 LISALayer 的基本实现原理，但在生产环境中，非结构化稀疏（即逐元素掩码）可能带来内存访问不连续的问题，影响GPU利用率。为此，ms-swift 内部常采用分组稀疏或结构化剪枝策略，例如以通道或神经元为单位进行掩码更新，兼顾性能与效率。

class LISALayer(nn.Module): def __init__(self, linear_layer: nn.Linear, sparsity=0.05): super().__init__() self.linear = linear_layer self.sparsity = sparsity self.register_buffer('mask', torch.ones_like(linear_layer.weight)) self.activated = False def compute_importance(self, grad_output): importance = torch.abs(self.linear.weight.grad) return importance def update_mask(self, current_step, update_freq=100): if current_step % update_freq != 0: return with torch.no_grad(): importance = torch.abs(self.linear.weight.data) num_params = importance.numel() k = int(num_params * self.sparsity) threshold = importance.flatten().kthvalue(k).values new_mask = (importance >= threshold).float() self.mask.data = new_mask def forward(self, x): masked_weight = self.linear.weight * self.mask return nn.functional.linear(x, masked_weight, self.linear.bias)

这段代码虽简化，却清晰体现了 LISA 的灵魂：可训练参数集合不是预先固定的，而是随着训练进程不断演化。这种“活”的微调机制，使得模型能够像生物神经系统一样，在面对新任务时优先调动最相关的神经通路，而非全面重构。

也正是这种设计理念，使 LISA 在多个公开评测中展现出超越 LoRA 2~3个百分点的性能优势，尤其在常识推理（MMLU）、中文理解（C-Eval）等综合性任务上表现突出。它证明了：少更新，不一定意味着弱性能；关键在于“更新哪里”和“何时更新”。

展望未来，LISA 所代表的动态稀疏微调范式仍有广阔发展空间。它可以与强化学习结合，让智能体自主决策子网更新策略；也可融入神经架构搜索框架，实现“边训练、边搜索最优子结构”。更进一步，若能引入时间维度建模，使子网演化具备记忆性和预测性，则有望迈向真正的“自主进化式微调”。

目前，LISA 与 ms-swift 的深度融合，已经让大模型微调迈入“精细化、智能化、平民化”的新阶段。对企业而言，这意味着研发成本显著下降、产品迭代速度加快；对研究者而言，提供了一个高可信度的实验平台；对广大开发者而言，几行命令就能完成过去需要数周开发的工作。

或许不久之后，“我有一个想法，让我用LISA试一下”将成为AI工程师的新常态。

查看全文

http://www.jsqmd.com/news/176508/