2025_NIPS_The Transient Nature of Emergent In-Context Learning in Transformers
文章核心总结与翻译
一、主要内容
该研究聚焦Transformer模型中上下文学习(ICL)的特性,核心发现是ICL具有暂时性:在训练过程中,ICL会先出现,随后在训练损失持续下降的情况下逐渐消失,被权重内学习(IWL)取代。
- 实验设计:构建基于Omniglot图像数据集和LLaMa语言模型token嵌入的合成数据集,设计支持ICL和IWL两种策略的训练任务,通过专属评估序列分别度量两种学习模式的性能。
- 关键发现:
- ICL的暂时性在不同模型规模(深度、宽度)、数据集大小(类别数、类内样本数)和数据类型(图像、语言token嵌入)中均存在;
- 数据分布特性(如Zipfian偏斜分布、高类别数)可延缓ICL衰退,但无法彻底消除;
- L2正则化能有效抑制ICL暂时性,甚至实现ICL的持续存在,而过强正则化会导致模型性能退化;
- ICL暂时性的核心原因是ICL与IWL电路在Transformer残差流中存在资源竞争,IWL在渐近训练中更受青睐。
- 实践启示:过度训练可能导致模型丢失ICL能力,需通过早期停止或正则化平衡ICL与IWL,小型模型优化需重视这一现象。
二、创新点
- 首次揭示ICL的暂时性本质,挑战了“ICL一旦出现便会
