2025_NIPS_Understanding the Expressive Power and Mechanisms of Transformer for Sequence Modeling
文章核心总结
该研究围绕Transformer在长序列、稀疏且复杂记忆的序列建模中的表达能力与机制展开系统分析,通过建立明确的逼近速率,揭示了Transformer各组件(自注意力、位置编码、前馈网络)及关键超参数的作用,为架构优化提供了理论支撑与实验验证。
主要内容
- 任务分类:将序列建模任务划分为三类——固定长稀疏记忆(如稀疏布尔函数、n-gram模型)、自适应长稀疏记忆(如多步推理、情感分析)、本质稀疏记忆(如图像特征提取、小波分析)。
- 组件机制解析:
- 层数以处理记忆嵌套关系为主,头数和前馈网络宽度负责捕捉单个记忆函数复杂度;
- 前馈网络(FFN)负责逼近非线性记忆函数和读出函数,自注意力(Attn)负责提取记忆位置的token;
- 点积(DP)在简单任务中非必需,但在自适应任务中需与相对位置编码(RPE)协作,实现时间空间与token空间的交互;
- 对数衰减RPE适配重尾记忆,线性衰减RPE适配轻尾记忆,可突破循环神经网络的“记忆诅咒”。
- 理论与实验验证:建立了各类任务的逼近速率公式,通过8组实验(从玩具模型到LLM预训练)验证了理论洞察,提出了针对性的超参数选择与架构设计建议。
创新点
- 首次系统划分三类稀疏记忆任务,明确Transformer对不同复杂度任务的适配性边界;
