Transformer实战(27)——参数高效微调(Parameter Efficient Fine-Tuning,PEFT)
Transformer实战(27)——参数高效微调(Parameter Efficient Fine-Tuning,PEFT)
- 0. 前言
- 1. 参数高效微调
- 2. 参数高效微调方法分类
- 2.1 加性方法
- 2.2 选择性方法
- 2.3 低秩微调
- 3. 实现参数高效微调
- 小结
- 系列链接
0. 前言
微调已经成为人工智能领域中一种流行的建模范式,尤其是在迁移学习中。在之前的学习中,所有模型都是基于更新所有参数的方式进行的。因此,可以称为全微调 (Full Fine-Tuning) (也称为全模型微调或全参数微调)。在本节中,我们将介绍部分微调策略。随着大语言模型 (Large Language Model,LLM) 参数的不断增加,微调和推理的成本变得极其高昂。全参数微调需要更新所有参数,并为每个任务单独保存大模型,但这一过程在内存和运行时间方面都非常昂贵。例如BERT有3亿个参数,T5有高达110亿个参数,GPT有1750亿个参数,而Pathways Language Model(PaLM) 则有5400亿个参数,因此,需要考虑参数高效微调。
1. 参数高效微调
在ChatGPT的时代,我们知道大语言模型 (Large Language Model,LLM) 能够在不需要任何额外更新或微调操作的情况下解决许多问题;那么,我们是否还需要微调操作?答案是肯定的。
我们可以使用ChatGPT、DeepSeek等模型来高效地解决情感分
