逆转训练针对大语言模型逆转训练的重要性
有些小伙伴应该清楚,这种方法来源于论文《Reverse Training to Nurse the Reversal Curse》。逆转训练的思路是将一段训练文本随机划分成若干 chunk,每个 chunk 内的文本顺序保持不变,但 chunk 之间的顺序被随机打乱。然后将这个打乱的文本与原始问题混合在一起,利用 next token prediction进行训练。
按照 chunk 的定义,作者进一步划分了几种方法:
- 当 chunk 是一个 token 时
- 当 chunk 是一个单词时
- 当 chunk 是一个实体时
- 当 chunk 是随机的一段文本序列时
目前实验结果表明,第四种方法效果最佳。
虽然这个思路非常简单,但实验结果表明,这种方法确实能在一定程度上缓解逆转诅咒。
为何有效?作者提供了两点见解(insight):
1. 大语言模型通过学习不同领域的知识和语言(如代码、小说、文档等),可以起到 1+1>2 的效果。作者设计的这种随机打乱 chunk 顺序的方法,类似于一种特殊任务的“语言”。
2. 大语言模型本质上是在学习 P(x1,x2,...,xn)。通过顺序的 next token prediction 方式并不是唯一的方法。通过其他顺序也能更好地学习 P(x1,x2,...,xn)。
