当前位置: 首页 > news >正文

什么是残差连接与归一化

一、残差连接(Residual Connection)

残差连接是深度网络中用于解决梯度消失、保留原始信息的核心技术,其核心逻辑是“抄近路”将模块的输入直接与模块的输出相加,形成残差路径。在Transformer架构中,残差连接始终跟随在Self-Attention或前馈网络(FFN)之后,公式可表示为:

其中,x 是当前模块的输入,SubLayer(x) 是该模块(如Self-Attention)的计算输出。

其核心作用有两点:一是保留原始输入信息,避免信息经过多层计算后被“稀释”或丢失;二是为梯度传播提供直接路径,防止深层网络训练时出现梯度消失,让深层模型可正常训练。

二、归一化(Layer Normalization,层归一化)

归一化是用于稳定模型训练、加速收敛的数值优化技术,在Transformer中特指层归一化(区别于batch归一化),核心是将每个样本的特征向量调整到“均值接近0、方差接近1”的统一范围,消除数值差异带来的训练干扰。

层归一化的核心步骤的为:先计算当前特征向量的均值和标准差,再用特征值减去均值、除以标准差,最后通过可学习参数进行轻微拉伸和偏移,公式可简化为:

其核心作用是稳定数值范围,避免因数值过大或过小导致模型训练爆炸、收敛缓慢,为深层网络的稳定训练提供保障。

三、完整示例(贴合Transformer实际流程)

以下以Transformer中“Self-Attention → 残差连接 → 归一化”的完整流程为例,用具体数值直观展示两者的作用,简化参数以方便理解:

1. 设定输入:假设经过位置编码后的词向量(输入 x)为 [1.2, 0.8](维度为2,模拟简化的词嵌入特征);

2. 经过Self-Attention计算:假设该模块的输出(SubLayer(x))为 [0.3, 0.5](模拟注意力机制学到的特征);

3. 残差连接(Add):将输入与模块输出直接相加,得到残差输出:

此时,原始输入 [1.2, 0.8] 的信息被完整保留,同时融入了注意力学到的新特征 [0.3, 0.5],避免了原始信息丢失。

4. 归一化(Layer Norm):对残差输出 [1.5, 1.3] 进行归一化处理:

5. 最终结果:归一化后的输出为 [1.0, -1.0],数值范围被稳定在[-1, 1]之间,既保留了原始信息和注意力学到的特征,又避免了数值过大导致的训练问题,为后续的前馈网络(FFN)计算提供了稳定的输入。

四、核心总结

残差连接负责“保留原始信息、打通梯度路径”,归一化负责“稳定数值范围、加速模型收敛”,两者在Transformer中始终以“SubLayer(Attention/FFN)→ 残差连接 → 归一化”的顺序组合使用,是Transformer能够实现深层训练、保证模型性能的关键基础。

http://www.jsqmd.com/news/478740/

相关文章:

  • 百考通AI毕业论文智能生成,让学术创作高效又专业
  • 清华首次揭露:AI图像编辑器的“视觉后门“如何轻松突破安全防线
  • 再谈《复利的力量》
  • 14-ORM-数据库操作-查询条件
  • 混频器在雷达模块中的作用及原理……
  • 大模型中量化是什么
  • Django中间件
  • 解决brew安装慢问题
  • 我看见ta拿着枪指着我的头
  • 斯坦福 CS336 从零构建大模型 (2025 春) - 第四讲:专家混合模型(Mixture of Experts, MoE)
  • Claude code学习记录
  • 性价比高的律师营销机构有啥特色?这3点让你秒懂!
  • ITSM 实战:多门店报障如何做统一受理、派单和 SLA 升级,避免群里越报越乱
  • 我在凌晨醒来
  • 八大应用场景解析:企业如何利用AI重塑业务流程?
  • 任务书被导师打回两次后,我用了这个工具——5分钟写出他当场点头的版本!
  • SpringBoot如何调用节假日API
  • OpenClaw 的产品形态和运作原理
  • ABAQUS模拟Oxford Space Systems太阳能帆板展开与折叠过程:从完全展开状...
  • 第一章:人工智能的起源:达特茅斯之梦
  • SD 图生图模式
  • Hadoop 2.7.3 集群部署、配置与环境变量调优全流程总结
  • 面试常问:TCP相关(中级篇)问题原因即解决方案
  • Google 26NG SDE VO 三轮面经|真实全程复盘,避坑要点全整理
  • 商务请客,没带“名牌酒”怎么开场?这3句话,比砸钱更显品位
  • 如何在虚拟机部署单机rabbitmq 3.8.30
  • 399 元杀龙虾服务爆火!OpenClaw 养虾人连夜卸载,背后扎心风险深度拆解
  • 从构建到 IPA 保护,Flutter iOS 包如何做混淆与安全处理
  • 基于PLC级联Mach-Zehnder干涉仪的O波段400GHz平顶梳状滤波器设计
  • 数据结构初阶——二叉树之——堆的实现