当前位置：首页 > news >正文

Transformer架构：每个模块到底在解决什么问题？

news 2026/3/26 22:25:06

Transformer 的真正诞生的标志性论文（2017）

《Attention Is All You Need》
Vaswani et al., Google Brain

这是 Transformer 的起点

它的核心创新点：完全抛弃 RNN 和 CNN，只用 Attention。

Transformer =

Self-Attention + Feed Forward + 残差 + LayerNorm

论文摘要的一部分：

Transformer，该模型完全基于注意力机制，彻底摒弃了循环结构和卷积结构。在两个机器翻译任务上的实验表明，该模型在翻译质量上优于现有方法，同时具有更强的并行性，并且训练时间显著更短。

本篇文章将：

从整张模型结构图出发，按模块顺序，回答：“如果没有它，会出什么问题？”

模型架构图

一、整体视角：Transformer 没有改变“训练方式”

在进入结构结构之前，先明确一件事：

Transformer 并没有发明新的训练机制。

它依然使用的是：前向传播、反向传播、梯度下降（+ 各类优化器）

Transformer 真正的创新，不在“怎么更新参数”，

而在于：

如何设计结构，让梯度可以稳定、高效地流动。

带着这个视角，我们再来看结构图。

二、输入侧：Embedding + Positional Encoding

👉 解决的问题：模型“看不懂顺序”

1️⃣ Input Embedding

Input Embedding 的作用很基础：

把离散 token

映射为连续向量

但它天然不包含顺序信息。

如果只看 embedding：

“我爱你”

“你爱我”

在表示空间里，本质上只是向量集合。

2️⃣ Positional Encoding

Self-Attention 本身对顺序不敏感。

Positional Encoding 的引入，解决的是：

如何让模型知道“谁在前，谁在后”

从训练角度看：

没有位置信息

梯度无法学习“顺序依赖”

语言结构无法形成

三、Encoder Block：理解输入、建立全局关系

Encoder 是 Transformer 中最通用、可复用的部分。

一个 Encoder Block，重复堆叠 N 次。

3️⃣ Multi-Head Self-Attention（Encoder）

解决的问题：

👉长距离信息交互成本过高

在 RNN / CNN 中：

token 间的信息传递依赖时间步或卷积层数

路径长 → 梯度易衰减或爆炸

Self-Attention 的核心改变是：

让任意两个 token 之间，信息一步可达

Multi-Head 的意义在于：

不同子空间，建模不同关系

避免单一注意力视角的拥挤

4️⃣ Add & Norm（Residual + LayerNorm）

这一模块往往被低估，但它不是装饰品。

Residual（Add）

为梯度提供直通路径

防止深层堆叠后梯度“走不回去”

LayerNorm（Norm）

稳定每一层反向传播时的梯度尺度

避免不同层“有效学习率”严重不一致

5️⃣ Feed Forward Network（FFN）

解决的问题：Attention 只做“交互”，不做“表达”

Self-Attention 本质是加权汇聚。

FFN 的作用是：

对每个 token 的表示

做非线性变换与特征重组

可以理解为：

Attention 负责“信息路由”
FFN 负责“信息加工”

四、Decoder Block：在生成中保持因果性

Decoder 的结构与 Encoder 类似，但多了两层关键机制。

6️⃣ Masked Multi-Head Self-Attention（Decoder）

解决的问题：

👉防止模型在训练时“偷看未来”

在生成任务中：

当前 token 只能依赖过去

不能看到尚未生成的内容

Mask 的作用是：

在 Attention 中屏蔽未来位置

保证训练与推理阶段的一致性

这是一个因果约束模块，不是性能技巧。

7️⃣ Encoder–Decoder Attention（Cross-Attention）

解决的问题：

👉生成时，如何对齐输入信息

在这一步：

Query 来自 Decoder 当前状态

Key / Value 来自 Encoder 输出

它让模型学会：

“我现在生成的内容” 应该关注输入序列的哪一部分

相比传统 Seq2Seq：

不再依赖压缩后的隐状态，梯度可以直接回传到 Encoder 表示。

五、输出侧：从连续表示到概率分布

8️⃣ Output Embedding（shifted right）

解决的问题：

👉如何把生成任务转成监督学习

“shifted right”意味着：

当前输入是前一个 token

当前输出是下一个 token

这一步定义了：

Teacher Forcing

时间步对齐方式

损失函数如何计算

9️⃣ Linear + Softmax

解决的问题：

👉如何从隐空间回到离散词空间

Linear：投影到词表维度

Softmax：形成概率分布

同时，这也是：

梯度反向传播的起点

所有关于：

Loss、梯度方向、参数更新

都从这里开始回流。

六、把整张结构图连起来看

现在可以重新看这张 Transformer 结构图，我们会发现：

它不是“Attention 的堆叠”

而是一套围绕高效可训练性（梯度系统）设计的结构组合

每一个模块，都在回答一个具体问题：

顺序怎么表示？

信息怎么交互？

梯度怎么稳定？

生成怎么不作弊？

输出怎么对齐？

最后

选择AI大模型就是选择未来！最近两年，大家都可以看到AI的发展有多快，时代在瞬息万变，我们又为何不给自己多一个选择，多一个出路，多一个可能呢？

与其在传统行业里停滞不前，不如尝试一下新兴行业，而AI大模型恰恰是这两年的大风口，人才需求急为紧迫！

人工智能时代最缺的是什么？就是能动手解决问题还会动脑创新的技术牛人！智泊AI为了让学员毕业后快速成为抢手的AI人才，直接把课程升级到了V6.0版本‌。

这个课程就像搭积木一样，既有机器学习、深度学习这些基本功教学，又教大家玩转大模型开发、处理图片语音等多种数据的新潮技能，把AI技术从基础到前沿全部都包圆了！

课堂上不光教理论，还带着学员做了十多个真实项目。学员要亲自上手搞数据清洗、模型调优这些硬核操作，把课本知识变成真本事‌！

课程还教大家怎么和AI搭档一起工作，就像程序员带着智能助手写代码、优化方案，效率直接翻倍‌！

这么练出来的学员确实吃香，83%的应届生都进了大厂搞研发，平均工资比同行高出四成多‌。

智泊AI还特别注重培养"人无我有"的能力，比如需求分析、创新设计这些AI暂时替代不了的核心竞争力，让学员在AI时代站稳脚跟‌。

课程优势一：人才库优秀学员参与真实商业项目实训

课程优势二：与大厂深入合作，共建大模型课程

课程优势三：海外高校学历提升

课程优势四：热门岗位全覆盖，匹配企业岗位需求

如果说你是以下人群中的其中一类，都可以来智泊AI学习人工智能，找到高薪工作，一次小小的“投资”换来的是终身受益！

·应届毕业生‌：无工作经验但想要系统学习AI大模型技术，期待通过实战项目掌握核心技术。

·零基础转型‌：非技术背景但关注AI应用场景，计划通过低代码工具实现“AI+行业”跨界‌。

·业务赋能 ‌突破瓶颈：传统开发者（Java/前端等）学习Transformer架构与LangChain框架，向AI全栈工程师转型‌。

智泊AI始终秉持着“让每个人平等享受到优质教育资源”的育人理念‌，通过动态追踪大模型开发、数据标注伦理等前沿技术趋势‌，构建起"前沿课程+智能实训+精准就业"的高效培养体系。

重磅消息

人工智能V6.0升级两大班型：AI大模型全栈班、AI大模型算法班，为学生提供更多选择。

由于文章篇幅有限，在这里我就不一一向大家展示了，学习AI大模型是一项系统工程，需要时间和持续的努力。但随着技术的发展和在线资源的丰富，零基础的小白也有很好的机会逐步学习和掌握。

【最新最全版】AI大模型全套学习籽料（可无偿送）：LLM面试题+AI大模型学习路线+大模型PDF书籍+640套AI大模型报告等等，从入门到进阶再到精通，超全面存下吧！

获取方式：有需要的小伙伴，可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

来智泊AI，高起点就业

培养企业刚需人才

扫码咨询抢免费试学

⬇⬇⬇

AI大模型学习之路，道阻且长，但只要你坚持下去，就一定会有收获。

查看全文

http://www.jsqmd.com/news/318866/

使用Python处理计算机图形学（PIL/Pillow）

TCN-Transformer-GRU组合模型回归+SHAP分析+新数据预测+多输出！深度学习可解释分析MATLAB代码

【读书笔记】《大流感》

设计模式在C++中的实现

核心注解

Rocky Linux 9 双网卡 bond0 绑定 - 实践

用Python批量处理Excel和CSV文件

同源策略 ≠ 万能盾牌：为什么你的后端仍需防范“盲打“攻击？

【AI】在RK3576上，使用RKNN实现MeloTTS（文本转语音）

C++与Python混合编程实战

高性能序列化库

8个常见错误及避免方法，优化YashanDB数据库使用

C++中的代理模式实战

《Ionic Tab（选项卡）详解与使用指南》

调试技巧与核心转储分析

高性能计算缓存优化

基于Springboot图书借阅管理系统【附源码+文档】

星图平台快速搭建 Clawdbot：私有化本地 Qwen3-VL:30B 并接入飞书平台（下篇）

基于Springboot+HTML5的图书管理系统【附源码+文档】

R CSV 文件处理指南

8个策略打造高效YashanDB数据库运维团队

模板编译期条件分支

WPF MVVM模式下绑定两个ViewModel导致View不触发更新

高校院所科技成果转化的生态协同之道，数智平台引领产业与学术双赢

Transformer 的真正诞生的标志性论文（2017）

模型架构图

一、整体视角：Transformer 没有改变“训练方式”

二、输入侧：Embedding + Positional Encoding

1️⃣ Input Embedding

2️⃣ Positional Encoding

三、Encoder Block：理解输入、建立全局关系

3️⃣ Multi-Head Self-Attention（Encoder）

4️⃣ Add & Norm（Residual + LayerNorm）

5️⃣ Feed Forward Network（FFN）

四、Decoder Block：在生成中保持因果性

6️⃣ Masked Multi-Head Self-Attention（Decoder）

7️⃣ Encoder–Decoder Attention（Cross-Attention）

五、输出侧：从连续表示到概率分布

8️⃣ Output Embedding（shifted right）

9️⃣ Linear + Softmax

六、把整张结构图连起来看

相关文章：