2025_NIPS_LLM Layers Immediately Correct Each Other
文章核心总结与翻译
一、主要内容
文章提出了Transformer层校正机制(TLCM),挑战了“Transformer层仅通过累加贡献丰富残差流表示”的传统假设。研究发现,7个主流开源LLM家族中有5个(Llama 3、OLMo、Mistral、Gemma、Qwen2)存在TLCM:相邻层会系统性抵消彼此对残差流的部分贡献,且该机制在预训练中逐步形成,对数字、标点、日期等上下文依赖性强的token作用最显著,由注意力和MLP子层协同实现。
通过因果干预和雅可比矩阵分析,作者证实TLCM具有适应性(根据前一层输出调整校正强度),且仅针对性校正特定子空间、促进其他子空间。基于此提出“提议-否决假设”:一层提出候选特征,下一层通过上下文筛选并剔除不合适特征。最后,TLCM解释了特征可解释性领域的三大难题(特征描述特异性低、模型引导需高放大倍数、跨层转码器优于SAE)。
二、创新点
- 首次发现并系统表征TLCM,揭示了Transformer层间“校正而非仅累加”的核心交互模式。
- 验证了TLCM的普遍性(覆盖多模型家族、文本类型)和特异性(特定token、层段更活跃),明确其形成于预训练的关键特性。
- 通过雅可比矩阵分解,量化了TLCM的子空间选择性校正机制,提出“提议-否决”理论框架。
- 用TLCM统一解释了特征可解释性领域的三大长期挑战,为模型引导、可解释性方法优化提供新视角。
