当前位置: 首页 > news >正文

别再暴力Clip了!千问提出GatedNorm,统一视角揭秘残差流玄学

在 Transformer 的训练过程中,只要稍微留心观察权重或激活值的分布,你就会发现残差流里的那个怪象:无论输入何种 token,某些固定维度的激活值始终显著高于其他维度。

与此同时,Attention Map 中的首个 token(通常是 <BOS>)也往往占据着极高的注意力权重(Attention Sink)。

在工程实践中,为了搞定数值稳定性或量化溢出,常见的处理方式往往是尝试截断(Clip)或通过正则化手段压制它们。

阿里 Qwen 团队发布的最新论文指出,这些异常值并非训练不稳定的产物,而是模型在归一化约束下自发演化出的重缩放机制。

这项工作不仅统一解释了 DeepSeek-V3、Qwen、GPT-OSS 等模型中普遍存在的 Sink 现象,更从数学底层证明了,强制去除这些异常值等同于破坏了模型的特征调节能力。

基于此,Qwen 提出了一种参数高效的架构改进——GatedNorm,用显式的门控机制替代了不稳定的异常值,从而在架构层面有效解决了低比特量化的精度难题。

论文标题:

A Unified View of Attention and Residual Sinks: Outlier-Driven Rescaling is Essential for Transformer Training

论文链接:

https://arxiv.org/pdf/2601.22966

普遍存在的“异常值”

Qwen 团队对 Qwen3、GPT-OSS 进行了跨架构的对比分析,结果表明这种异常是 Transformer 的一种共性特征。

〓 图1. Qwen3 与 GPT-OSS 的 Attention Sink 与 Residual Sink 可视化

如上图所示:

Attention Sink:首个 Token 吸收了绝大部分注意力 Logits,导致其他 Token 的权重被相对压制。

Residual Sink:在 Qwen3-235B 等模型中,特定维度(如第 1806、1423 维)的激活值呈现出输入无关的持续高值。

这种现象在 DeepSeek-V3 中尤为极端。

如下图统计所示,其残差流中的最大激活值达到了惊人的 264192.0 ,而常规维度的数值通常仅在量级。

〓 图2. DeepSeek-V3 的 Attention Sink 与 Residual Sink 统计

在 FP16/BF16 训练中,这种数值尚可被容忍。

但在 INT4 或 FP4 量化场景下,巨大的动态范围会迫使量化参数为了迁就最大值而剧烈膨胀,导致承载核心语义的微小数值在量化过程中丢失精度。

统一视角:异常值驱动的重缩放

模型为何要花费巨大的能量去维护这些看似无用的异常值?Qwen 团队认为,这是模型为了对抗或利用归一化层特性而产生的一种适应性行为。

1. RMSNorm 的数学本质

回到 RMSNorm 的定义。在论文附录中,作者给出了归一化层的形式化表达:

当输入向量中存在一个极大的异常值时,分母上的范数会被该值主导而显著增大。

这实际上构成了一个全局缩放杠杆。模型只需推高某几个特定维度的数值,就能通过 RMSNorm 的除法性质,全局性地压缩其他所有特征维度的幅度。

论文进一步给出了严格的数学证明:LayerNorm 输出的特征范数上界,随着异常值幅度的增加而单调递减。

2. 统一视角

在此理论框架下,Attention Sink 和 Residual Sink 本质上是同构的:

Attention Sink:利用 Softmax 的归一化特性。通过推高首 Token 的 Logits(分母增大),压制其他 Token 的 Attention Weight,实现对无效信息的过滤。

Residual Sink:利用 RMSNorm 的归一化特性。通过推高特定维度的激活值(分母增大),调整层间残差连接的贡献比例。

模型并非出现错误,而是利用归一化层的数学特性,演化出了一种高效的全局缩放策略。

为何 Clipping 策略失效?

理解了这一机制,就能解释为何工程上常见的 Clipping 策略往往会导致模型崩溃。

如果我们强行截断残差流中的异常值(例如 Clip 到 1000),RMSNorm 的分母会瞬间变小,导致原本被压缩的特征幅度异常膨胀。

这破坏了模型内部已学习到的特征分布,进而引发训练发散。

论文中的消融实验进一步证实:即使移除了归一化层,模型性能也会显著下降。

这说明,“重缩放”并非归一化层的副作用,而是 Transformer 训练稳定的必要条件。

〓 表1. 数据显示移除 Norm 或暴力 Clip 异常值(Row 12)均导致 Loss 不降反升,证明异常值是维持模型性能的必要条件。

这也从侧面解释了架构设计中的一个长期争论:为何 SwiGLU 通常优于 GLU?

SwiGLU 使用的 Swish 激活函数在正半轴无上界,允许模型轻松生成巨大的异常值来触发 Rescaling。而标准 GLU 使用 Sigmoid,值域受限于 (0, 1),限制了这种自适应缩放的能力。

解决方案:GatedNorm

既然 Rescaling 是刚需,与其让模型依赖不稳定的异常值来实现,不如在架构层面提供显式的控制路径。

Qwen 团队提出了 GatedNorm。其核心思想是在 RMSNorm 后引入一个可学习的门控机制。

其中是 RMSNorm 的输出。构成了轻量级的 Bottleneck 结构(Rank=16),参数量增加仅约 2%,计算开销极低。

引入 GatedNorm 后,模型拥有了合法的缩放手段,不再需要生成极端的异常值。

热力图对比显示,在 GatedNorm 模型中,残差流中的深色竖条纹几乎完全消失,特征分布回归平滑。

〓 图3. Baseline、PreAffine 与 GatedNorm 的残差流热力图对比

更值得注意的是,当 GatedNorm 补齐了缩放能力后,GLU 的表现反超了 SwiGLU。

如下图所示,GLU + GA + GatedNorm 在 Loss 上达到最低,且不再产生剧烈的波动。这表明 SwiGLU 此前的优势很大程度上源于其更易于产生异常值以辅助缩放。

〓 图4. SwiGLU 与 GLU 在训练过程中的 Loss 及异常值对比

关键应用

对于工业界而言,GatedNorm 的最大价值在于扫清了低比特量化的障碍。

由于 GatedNorm 从根源上消除了 Massive Activations,激活值的分布变得紧凑且消除了长尾效应,极大降低了量化难度。

在激进的 FP4(W4A4)测试中:

〓 表2. 7B 和 24B MoE 模型在 FP4 量化下的性能对比

PreAffine(前沿对照组):在 MGSM 等数学任务上,准确率下降显著(58.46 -> 49.58),说明仅靠参数吸收异常值无法解决量化损失。

GatedNorm:表现鲁棒。MGSM 仅下降不到 2 个点(55.47 -> 53.70),在 Code 任务上甚至略高于量化前的 Baseline。

这说明使用 GatedNorm 训练的模型,天然具备对 W4A4 推理架构的亲和性,无需复杂的后训练量化调整。

结语

这项研究揭示了 Transformer 架构中一个被长期忽视的机理:Attention Sink 和 Residual Sink 并非设计缺陷,而是模型在归一化约束下为实现“特征重缩放”而涌现的功能性特征。

下表总结了论文的核心洞察。与其在训练后尝试裁剪这些异常值,不如在设计阶段通过 GatedNorm 提供显式的缩放通道。

〓 表2. 统一视角下 Attention Sink 与 Residual Sink 的对比总结

对于致力于小参数模型训练、MoE 架构优化,或对 W4A4 推理效率有明确需求的团队,GatedNorm 提供了一个理论完备且极其易用的架构升级方向。

更多阅读

#投 稿 通 道#

让你的文字被更多人看到

如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。

总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。

PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。

📝稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注

• 稿件建议以markdown格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算

📬投稿通道:

• 投稿邮箱:hr@paperweekly.site

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿

△长按添加PaperWeekly小编

🔍

现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

·

·

http://www.jsqmd.com/news/339801/

相关文章:

  • LeakCanary 使用经验分享
  • 2026年展厅自动讲解机器人技术深度解析与主流产品选型指南 - 智造出海
  • RecyclerView 多类型布局方案
  • MVP、MVI、MVVM 架构笔记
  • 90分钟上手,自己做一个入库出库系统
  • 华为HCIP-Datacom H12-821题库(带详细解析)
  • 2026年GEO与AI搜索优化指南:免费工具如何选?
  • 为什么中国工厂推 TPM 难,总是喊得响,做不动?
  • linux下ffmpeg源码编译
  • 芯片团队里那些”不可或缺”的”平庸者”
  • 鸿蒙应用如何集成第三方 SDK?真实项目中的完整实践
  • Flutter for OpenHarmony 实战:独木桥问题完整开发指南
  • 2026年2月云南专业食品包装盒厂家实力精选报告 - 2026年企业推荐榜
  • 怎么把select语句返回的结果也输出来
  • 从约束到互联:LLM生态中Rules、Tools、Skills与MCP的演进史
  • 如何打开2个notepad++
  • 【软考每日一练030】软件维护:逆向工程与再工程的区别与联系
  • 电商摄影师必备:一张图生成动态视频?千鹿Pr助手神操作!
  • 干掉前端!3分钟纯Java注解搭个管理系统
  • 专业版burpsuite安装和破解
  • 基于springboot的大学生餐厅点餐系统-计算机毕业设计源码+LW无文档
  • Spring Boot 应用启动速度优化全攻略
  • 2026年第一季度武汉二手货架市场专业生产商深度评测 - 2026年企业推荐榜
  • seq2cells 框架的模型输入、处理流程及输出细节
  • 红色工作汇报PPT模板
  • AI知识库实战:语义搜索+轻量生成的完美结合
  • 简单理解:门电路
  • spring6-bean的生命周期与循环依赖
  • 当计算机专业站在十字路口:近屿智能看见了什么?
  • ViT图像分类-中文-日常物品GPU算力优化教程:4090D高效部署方案