大模型---模型的后训练
目录
1.继续训练
2.SFT
3.对齐训练
这篇文章会讲三种不同的后训练方式:继续训练,SFT,对齐训练,这里先总体说一下。Don't Stop Pretraining把继续训练定义为多阶段自适应预训练,并证明在目标领域语料和任务相关无标注语料上继续预训练,通常能提升下游表现;SFT在对齐训练之前,即让模型先学会按指令做答;对齐训练则是进一步把偏好对齐写成更直接的偏好优化目标。
1.继续训练
继续训练解决的问题是模型不熟这个行业的术语,模型不熟这类文档的表达方式,模型面对目标领域语料时理解不够自然,或者下游任务的文本分布和通用预训练差异太大。
参考论文:[2004.10964] Don't Stop Pretraining: Adapt Language Models to Domains and Tasks
Don't Stop Pretraining这篇论文,讲到两个,一是DAPT(Domain-Adaptive Pretraining),二是TAPT(Task-Adaptive Pretraining)。DAPT是在一个更大的、同领域语料库上继续预训练。比如医学、法律、金融、科研论文;TAPT是在与你最终任务更贴近的无标注语料上继续预训练。比如某个分类任务对应的数据集文本本身。
继
