当前位置: 首页 > news >正文

Transformer架构:每个模块到底在解决什么问题?

Transformer 的真正诞生的标志性论文(2017)

《Attention Is All You Need》
Vaswani et al., Google Brain

这是 Transformer 的起点

它的核心创新点:完全抛弃 RNN 和 CNN,只用 Attention。

Transformer =

Self-Attention + Feed Forward + 残差 + LayerNorm

论文摘要的一部分:

Transformer,该模型完全基于注意力机制,彻底摒弃了循环结构和卷积结构。在两个机器翻译任务上的实验表明,该模型在翻译质量上优于现有方法,同时具有更强的并行性,并且训练时间显著更短。

本篇文章将:

从整张模型结构图出发,按模块顺序,回答:“如果没有它,会出什么问题?”


模型架构图



一、整体视角:Transformer 没有改变“训练方式”

在进入结构结构之前,先明确一件事:

Transformer 并没有发明新的训练机制。

它依然使用的是:前向传播、反向传播、梯度下降(+ 各类优化器)

Transformer 真正的创新,不在“怎么更新参数”,

而在于:

如何设计结构,让梯度可以稳定、高效地流动。

带着这个视角,我们再来看结构图。


二、输入侧:Embedding + Positional Encoding

👉 解决的问题:模型“看不懂顺序”

1️⃣ Input Embedding

Input Embedding 的作用很基础:

把离散 token

映射为连续向量

但它天然不包含顺序信息。

如果只看 embedding:

“我 爱 你”

“你 爱 我”

在表示空间里,本质上只是向量集合。


2️⃣ Positional Encoding

Self-Attention 本身对顺序不敏感。

Positional Encoding 的引入,解决的是:

如何让模型知道“谁在前,谁在后”

从训练角度看:

没有位置信息

梯度无法学习“顺序依赖”

语言结构无法形成


三、Encoder Block:理解输入、建立全局关系

Encoder 是 Transformer 中最通用、可复用的部分。

一个 Encoder Block,重复堆叠 N 次。


3️⃣ Multi-Head Self-Attention(Encoder)

解决的问题:

👉长距离信息交互成本过高

在 RNN / CNN 中:

token 间的信息传递依赖时间步或卷积层数

路径长 → 梯度易衰减或爆炸

Self-Attention 的核心改变是:

让任意两个 token 之间,信息一步可达

Multi-Head 的意义在于:

不同子空间,建模不同关系

避免单一注意力视角的拥挤


4️⃣ Add & Norm(Residual + LayerNorm)

这一模块往往被低估,但它不是装饰品。

Residual(Add)

为梯度提供直通路径

防止深层堆叠后梯度“走不回去”

LayerNorm(Norm)

稳定每一层反向传播时的梯度尺度

避免不同层“有效学习率”严重不一致


5️⃣ Feed Forward Network(FFN)

解决的问题:Attention 只做“交互”,不做“表达”

Self-Attention 本质是加权汇聚。

FFN 的作用是:

对每个 token 的表示

做非线性变换与特征重组

可以理解为:

Attention 负责“信息路由”
FFN 负责“信息加工”


四、Decoder Block:在生成中保持因果性

Decoder 的结构与 Encoder 类似,但多了两层关键机制。


6️⃣ Masked Multi-Head Self-Attention(Decoder)

解决的问题:

👉防止模型在训练时“偷看未来”

在生成任务中:

当前 token 只能依赖过去

不能看到尚未生成的内容

Mask 的作用是:

在 Attention 中屏蔽未来位置

保证训练与推理阶段的一致性

这是一个因果约束模块,不是性能技巧。


7️⃣ Encoder–Decoder Attention(Cross-Attention)

解决的问题:

👉生成时,如何对齐输入信息

在这一步:

Query 来自 Decoder 当前状态

Key / Value 来自 Encoder 输出

它让模型学会:

“我现在生成的内容” 应该关注输入序列的哪一部分

相比传统 Seq2Seq:

不再依赖压缩后的隐状态,梯度可以直接回传到 Encoder 表示。


五、输出侧:从连续表示到概率分布


8️⃣ Output Embedding(shifted right)

解决的问题:

👉如何把生成任务转成监督学习

“shifted right”意味着:

当前输入是前一个 token

当前输出是下一个 token

这一步定义了:

Teacher Forcing

时间步对齐方式

损失函数如何计算


9️⃣ Linear + Softmax

解决的问题:

👉如何从隐空间回到离散词空间

Linear:投影到词表维度

Softmax:形成概率分布

同时,这也是:

梯度反向传播的起点

所有关于:

Loss、梯度方向、参数更新

都从这里开始回流。


六、把整张结构图连起来看

现在可以重新看这张 Transformer 结构图,我们会发现:

它不是“Attention 的堆叠”

而是一套围绕高效可训练性(梯度系统)设计的结构组合

每一个模块,都在回答一个具体问题:

顺序怎么表示?

信息怎么交互?

梯度怎么稳定?

生成怎么不作弊?

输出怎么对齐?

最后

选择AI大模型就是选择未来!最近两年,大家都可以看到AI的发展有多快,时代在瞬息万变,我们又为何不给自己多一个选择,多一个出路,多一个可能呢?

与其在传统行业里停滞不前,不如尝试一下新兴行业,而AI大模型恰恰是这两年的大风口,人才需求急为紧迫!

人工智能时代最缺的是什么?就是能动手解决问题还会动脑创新的技术牛人!智泊AI为了让学员毕业后快速成为抢手的AI人才,直接把课程升级到了V6.0版本‌。

这个课程就像搭积木一样,既有机器学习、深度学习这些基本功教学,又教大家玩转大模型开发、处理图片语音等多种数据的新潮技能,把AI技术从基础到前沿全部都包圆了!

课堂上不光教理论,还带着学员做了十多个真实项目。学员要亲自上手搞数据清洗、模型调优这些硬核操作,把课本知识变成真本事‌!

课程还教大家怎么和AI搭档一起工作,就像程序员带着智能助手写代码、优化方案,效率直接翻倍‌!

这么练出来的学员确实吃香,83%的应届生都进了大厂搞研发,平均工资比同行高出四成多‌。

智泊AI还特别注重培养"人无我有"的能力,比如需求分析、创新设计这些AI暂时替代不了的核心竞争力,让学员在AI时代站稳脚跟‌。

课程优势一:人才库优秀学员参与真实商业项目实训

课程优势二:与大厂深入合作,共建大模型课程

课程优势三:海外高校学历提升

课程优势四:热门岗位全覆盖,匹配企业岗位需求

如果说你是以下人群中的其中一类,都可以来智泊AI学习人工智能,找到高薪工作,一次小小的“投资”换来的是终身受益!

·应届毕业生‌:无工作经验但想要系统学习AI大模型技术,期待通过实战项目掌握核心技术。

·零基础转型‌:非技术背景但关注AI应用场景,计划通过低代码工具实现“AI+行业”跨界‌。

·业务赋能 ‌突破瓶颈:传统开发者(Java/前端等)学习Transformer架构与LangChain框架,向AI全栈工程师转型‌。

智泊AI始终秉持着“让每个人平等享受到优质教育资源”的育人理念‌,通过动态追踪大模型开发、数据标注伦理等前沿技术趋势‌,构建起"前沿课程+智能实训+精准就业"的高效培养体系。

重磅消息

人工智能V6.0升级两大班型:AI大模型全栈班AI大模型算法班,为学生提供更多选择。

由于文章篇幅有限,在这里我就不一一向大家展示了,学习AI大模型是一项系统工程,需要时间和持续的努力。但随着技术的发展和在线资源的丰富,零基础的小白也有很好的机会逐步学习和掌握。

【最新最全版】AI大模型全套学习籽料(可无偿送):LLM面试题+AI大模型学习路线+大模型PDF书籍+640套AI大模型报告等等,从入门到进阶再到精通,超全面存下吧!

获取方式:有需要的小伙伴,可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

来智泊AI,高起点就业

培养企业刚需人才

扫码咨询 抢免费试学

⬇⬇⬇

AI大模型学习之路,道阻且长,但只要你坚持下去,就一定会有收获。

http://www.jsqmd.com/news/318866/

相关文章:

  • 使用Python处理计算机图形学(PIL/Pillow)
  • TCN-Transformer-GRU组合模型回归+SHAP分析+新数据预测+多输出!深度学习可解释分析MATLAB代码
  • 【读书笔记】《大流感》
  • 设计模式在C++中的实现
  • 核心注解
  • Rocky Linux 9 双网卡 bond0 绑定 - 实践
  • 用Python批量处理Excel和CSV文件
  • 自定义字面量高级用法
  • 用Pygame开发你的第一个小游戏
  • 零成本抽象在C++中的应用
  • C++中的组合模式
  • W3C XML 活动
  • C++中的代理模式实现
  • 同源策略 ≠ 万能盾牌:为什么你的后端仍需防范“盲打“攻击?
  • 【AI】在RK3576上,使用RKNN实现MeloTTS(文本转语音)
  • C++与Python混合编程实战
  • 高性能序列化库
  • 8个常见错误及避免方法,优化YashanDB数据库使用
  • C++中的代理模式实战
  • 《Ionic Tab(选项卡)详解与使用指南》
  • 调试技巧与核心转储分析
  • 高性能计算缓存优化
  • 基于Springboot图书借阅管理系统【附源码+文档】
  • 星图平台快速搭建 Clawdbot:私有化本地 Qwen3-VL:30B 并接入飞书平台(下篇)
  • 基于Springboot+HTML5的图书管理系统【附源码+文档】
  • R CSV 文件处理指南
  • 8个策略打造高效YashanDB数据库运维团队
  • 模板编译期条件分支
  • WPF MVVM模式下绑定两个ViewModel导致View不触发更新
  • 高校院所科技成果转化的生态协同之道,数智平台引领产业与学术双赢