当前位置：首页 > news >正文

从通用到垂类：大模型微调技术详解，PEFT方法全总结（建议收藏）

news 2026/7/5 4:34:53

本文系统介绍了大模型参数高效微调(PEFT)的十大主流方法，包括添加派、适配器、软提示、缩放平移、重参数化、低秩分解、选择派、混合派、量化派和多任务派。2021-2023年是PEFT技术范式创立期，此后多为基础改进。工程应用中，Adapter/LoRA已足够解决问题；学术研究方面，创新空间有限。文章为开发者提供了全面的PEFT技术参考，助力大模型高效微调。

让大模型从通用领域过渡到垂类领域，往往需要采用大模型微调。

本文将汇总大模型中参数高效微调（PEFT，parameter-efficient fine-tuning）的主流方法，以此了解当前该领域的发展现状。

本文主要参考了Parameter-efficient fine-tuning in large language models: a survey of methodologies[1]这篇综述文章，其中，作者把各方法分成了多个类别。

整体来看，主要分以下六大派系。

添加派(Additive)

添加派的方法是将一小组可训练参数添加到预训练模型中，并仔细集成到其架构中。

在对特定下游任务进行微调时，仅调整这些额外的组件或参数，保持原始预训练的模型参数不变。

适配器(Adapter)

将小型适配器层插入到预先训练的模型中。

一些经典的方法包括：

Standard Adapter：由下投影、非线性激活函数和上投影层组成
Hadamard Adapter：采用权重向量和偏置向量，将 Hadamard 乘积（逐元素乘法）和逐元素加法应用于自注意力输出，从而产生新的自注意力输出
Tiny-Attention Adapter：通过在 Adapter 中嵌入一个低维、低头数的注意力机制，对隐藏特征进行局部建模与动态重加权。

软提示(Soft prompt)

软提示是指将一系列可训练连续向量（称为软提示）附加到预训练语言模型的输入中。这些软提示充当附加上下文，引导模型获得特定任务所需的输出。

在训练过程中，软提示被优化以促进模型适应新任务，而模型的其余部分基本保持不变。

缩放和平移(Scale and Shift)

缩放和平移是指通过对模型内部激活或权重施加可学习的缩放与偏移参数，实现对特征分布的轻量调整，有点类似于BN层里面的缩放和平移参数。

一些经典的方法包括：

(IA)3：添加三个缩放向量来分别缩放键、值和前馈激活
SSF：通过线性变换修改预训练模型提取的深层特征
PASTA：修改了预训练模型中的特殊令牌表示

重参数化派（Reparameterized）

重参数化派主要是构建低秩可学习参数矩阵以适应特定的下游任务。

训练时，仅对低秩参数矩阵进行微调，而在推理时，将学习到的矩阵与预训练的参数相结合，以确保推理速度不受影响。

低秩分解（Low-rank Decomposition）

通过低秩矩阵分解(LoRA)的方式，将原本高维的权重更新压缩为少量可训练参数。

这个方法估计是最有名的，不必多言。

LoRA 衍生方法（LoRA Derivatives）

在LoRA基础上，引入动态秩、自适应更新或结构改进机制，以进一步提升参数利用效率、稳定性或任务泛化能力。

以下是一些经典的改进方法：

DyLoRA：通过在训练期间针对一系列等级训练低等级适配器（LoRA）块，按不同等级排序，使模型能够灵活并在更广泛的等级范围内表现良好
AdaLoRA：根据权重矩阵的重要性得分动态分配权重矩阵之间的预算，其中增量更新以奇异值分解的形式参数化
IncreLoRA：在训练过程中根据每个模块的重要性分数增量分配可训练参数

选择派（Selective）

选择派是选择预训练模型参数的一个非常小的子集进行微调。

根据参数选择的方式不同，可分为非结构化选择和结构化选择。

非结构化选择（Unstructured Selection）

通过掩码、剪枝或参数重要性评估，仅更新模型中对任务最关键的参数子集，而不对整体结构施加约束，灵活性高但可解释性相对较弱。

一些经典的方法：

LoRAPrune：利用低秩矩阵A和B的梯度来近似预训练模型权重W0中每个参数的重要性，然后使用低秩矩阵A和B以迭代和渐进的方式执行结构化剪枝，在保持性能的同时有效地减小模型的大小
Child-tuning：在微调期间仅更新参数子集（称为子网络），同时屏蔽后向传递中剩余参数的梯度
LT-SFT：根据彩票假设 (LTH) 的变体学习稀疏的实值掩码，以实现零样本跨语言迁移