当前位置: 首页 > news >正文

Kimi新架构得马斯克点赞:解析注意力残差Attention Residuals

写在前面

自 2015 年 ResNet 提出以来,残差连接(Residual Connections,hl=hl−1+f(hl−1)h_l = h_{l-1} + f(h_{l-1})hl=hl1+f(hl1)一直是深度神经网络的基石。在当前的大语言模型(LLM)中,结合 PreNorm 的残差连接构建了极佳的“梯度高速公路”,使得训练数百层的 Transformer 成为可能。

然而,这种**“固定且均匀的加法累积”**真的完美吗?随着模型深度的增加,无权重的累加会导致隐藏状态的范数以O(L)O(L)O(L)的速度失控增长(PreNorm Dilution),早期层的信息被逐渐稀释,网络陷入“越深越难有效利用”的困境。

近期,Kimi 团队有个牛逼论文《Attention Residuals》,提出了一种颠覆性的架构:用“深度方向的 Softmax 注意力”取代“固定的残差加法”


一. 核心问题背景:标准残差连接的“深层”危机

在现代 LLM(如 LLaMA, DeepSeek 等)中,标准的残差更新公式为:
hl=hl−1+fl−1(hl−1) h_l = h_{l-1} + f_{l-1}(h_{l-1})hl=hl1+fl1(hl1)
如果将其展开,第lll层的输入实际上是 Embedding 层和之前所有层输出的均匀无权重求和
hl=h1+∑i=1l−1fi(hi) h_l = h_1 + \sum_{i=1}^{l-1} f_i(h_i)hl=h1+i=1l1fi(hi)

这种机制存在三个致命的局限性:

  1. 无选择性访问(No Selective Access):无论是 Attention 层还是 MoE/MLP 层,都只能接收到一个“大杂烩”状态,无法针对性地赋予不同历史层不同的权重。
  2. 不可逆的信息丢失:早期的精细特征在层层累加中被淹没,深层网络无法“按需提取”浅层信息。
  3. 输出膨胀与 PreNorm 稀释(Output Growth & PreNorm Dilution):由于累加,hlh_lhl的幅度随深度LLL线性增长。因为 PreNorm 会对输入进行归一化,深层网络为了对残差流产生实质性影响,必须输出越来越大的值,这破坏了训练的稳定性,导致浅层承担了过大的梯度。

正如在序列建模中,RNN 的顺序压缩被 Attention 的全局寻址所取代;在模型深度维度上,残差的线性累加也到了该被

http://www.jsqmd.com/news/508576/

相关文章:

  • Qwen3.5-9B效果展示:Qwen3.5-9B在WebSRC网页截图理解任务中的DOM结构还原能力
  • 基于Xinference-v1.17.1的YOLOv8目标检测集成方案:工业质检实战指南
  • 插槽(Slot)实战:从默认插槽到作用域插槽
  • React 如何实现大数据量图表(性能优化指南)
  • LabVIEW利用窗口句柄直接操作第三方软件:超越模拟鼠标键盘,稳定应对分辨率变化的数据交互方式
  • 深入解析printf、fprintf、sprintf的应用场景与性能优化
  • 协议选型决策迫在眉睫,MCP在微服务网关场景下P99延迟降低62%——你还在用REST硬扛高并发?
  • 在能源行业,尤其是电力企业,实现机组级核算是精细化管理的核心要求——需要精确归集每台发电机组的收入、成本(燃料、折旧、维修等)和利润
  • Qwen3-0.6B-FP8入门指南:理解Qwen3双模式切换机制及如何通过prompt触发思维模式
  • Qwen3.5-9B零基础上手:从浏览器访问7860端口到首次图文问答全过程
  • Z-Image-Turbo-rinaiqiao-huiyewunv 效果展示:基于JavaScript的实时交互式图像生成Demo
  • AI审核如何守护游乐设施安全底线?IACheck成为检测报告智能审核新助手
  • FPGA实现LED呼吸灯:PWM调光原理与工程实践
  • 10-第10章-HTTP服务器与中间件
  • 03-Oracle索引深入:不只是“加个索引就快了“
  • DTK(DCU Toolkit)是海光信息为其DCU(深度计算处理器)开发的软件平台,与NVIDIA的CUDA没有严格的版本对应关系,但通过技术兼容实现了对CUDA生态的支持
  • 基于Matlab/Simulink的储能系统及钒液流电池模型实现与仿真效果展示
  • luci-theme-argon:打造个性化OpenWrt管理界面(新手友好指南)
  • Wan2.1-umt5代码生成实战:媲美Claude Code的AI编程助手
  • 全自动烙馍机实力品牌:安徽强盛食品机械全解析
  • 短剧APP + 小程序 + H5 三端互通:账号、进度、会员、收益完全同步
  • 鸣潮工具箱WaveTools:解锁游戏潜能的完整指南
  • C语言中的宏日志打印语法以及相对printf的优点
  • Nanbeige 4.1-3B惊艳案例:用AI生成像素游戏关卡描述与谜题
  • 【实战指南】从零部署腾讯混元3D:避坑详解与环境配置
  • AI显微镜Swin2SR应用场景解析:电商素材、老照片、动漫修复
  • 3步解锁B站视频高效下载:DownKyi全方位使用指南
  • LLM/HPC常见术语汇总
  • 2026.3.20 - 呓语
  • FLUX.小红书极致真实V2部署教程:多用户隔离部署与API服务封装