中学生就能看懂:Transformer的左右脑分工与GPT的火爆之谜!
- Transformer 架构
上一篇我们讲了 GPT。GPT 最容易理解的地方在于,它本质上是一个会续写的模型 — 把文本生成拆成了一连串“预测下一个词”的过程。
但GPT 并不是完整的 Transformer — GPT 采用的是 Transformer 的 Decoder-only 架构(仅解码器),把它发展成了一个非常擅长生成文本的系统。而 Transformer 的标准结构,其实由两部分组成:Encoder 和 Decoder。
这里面的区别,就是本篇的重点。
1
为什么会需要完整的 Transformer?
我们把 GPT 比作一个正在考场上写作文的学生:它只能看见自己已经写下的内容,然后顺着逻辑继续往下编。你可以让它描写玫瑰、写 Python 代码、或者和它聊天,它都能通过“预测下一个词”来完成。
但我们回到 Transformer 刚被发明时的核心任务:机器翻译。假设要把一句英文翻译成中文:
The rose is very beautiful.
如果用 GPT 的思路,你只能把题目和答案拼在一起,给它这样一个提示词:
请把英文“The rose is very beautiful.”翻译成中文:
然后让 GPT 继续往下续写:
这套方法确实能用(如今的主流大语言模型就是这么做的)。但它也确实显得不够优雅,最开始的主要问题是:
- 上下文挤占:如果原句特别长(比如一大篇关于玫瑰的英文说明),前面输入的原题信息,可能会被后面生成的中文给“挤出去”。
- 任务混杂:模型必须在同一个流水线里,既要处理英文的语法(读懂原文),又要处理中文的逻辑(输出译文),还要自己领悟“哪些是原文、哪里开始是输出的结果,哪里要被重点参考”等等。
所以,Transformer 最初采用了一种分工更明确、更清晰的思路:
不把“理解原文”和“生成译文”混在一起。先用一个模块把原文彻底读懂,再用另一个模块根据理解的结果写出答案。
这就是 Transformer 的基本思想:Encoder 负责读懂,Decoder 负责生成。
2
完整 Transformer:左脑读懂,右脑生成
上篇我们已经看过完整的 Transformer 架构图:
别被图吓到,拆开来看全是我们前 13 篇介绍过的主题:嵌入、位置嵌入、多头注意力、残差连接、层归一化等。
如果用最易懂的语言来解释 Transformer 的流水线:
输入内容先进入 Encoder,被加工成一组“理解笔记”;随后 Decoder 一边看着自己已经写下的部分,一边查阅“笔记”,向后预测,直到生成最终答案。
继续用上面的机器翻译的例子。
**Encoder 过程就像一个读题的学生:**它先把The rose is very beautiful 这句话从头到尾完整看一遍,把句子里词与词的关系、重点(比如 rose 是主语,beautiful 是核心形容词)整理成一份包含深度语义的“向量笔记”。
**Decoder 则像答题的学生:**它开始生成中文。每写下一个词(比如刚写完“玫瑰”),它都会回头参考两部分信息:
- 自己已经写了什么?(我刚写了“
玫瑰”) - 读题学生的“理解笔记”里关键信息是什么?(比如,原句后面说的是
very beautiful)
于是 Decoder 自信地输出下一个词:非常。
3
编码器(Encoder):全局视角的阅读理解
先看左边的 Encoder。它的任务很好懂:把输入的原文序列读懂。
在输入英文“The rose is very beautiful”后,Encoder 的过程和 GPT 模型的前向传播过程相似:
- 第一步,分词与嵌入,再加上位置嵌入,让每个词变成带有顺序信息的数字向量。
- 接下来,进入多层的 Encoder Block 进行加工。这里的重点是多头注意力机制与前馈网络(以及每个子层都会做的残差、层归一化等),和 GPT 训练的前向传播类似,但又有一个重要的区别:Encoder 里的自注意力机制是不加“遮罩(Mask)”的。
GPT 模型训练时的“遮罩”是什么?
遮罩可以理解成注意力机制里的一个“挡板”。在 GPT 训练时,为了提高效率,通常会把一整句话送进模型,让它在每个位置同时预测下一个 token。比如输入“花园里的玫瑰非常美丽”,模型要学会在“玫瑰”后面预测“非常”,也要在“非常”后面预测“美丽”。如果不加遮罩,模型在预测时就能直接偷看到右侧的真实答案。所以就需要“挡住”每个位置右边的未来 token。
这是因为 Encoder 是在做“阅读理解”。当你读一句完整的英文时,你当然可以一眼看到整句话,而不需要假装看不见后面的词,比如rose可以同时和beautiful交换信息,互相理解。
- 经过多层处理,最开始的“词向量”,就变成了一组深度融合了整句上下文语境的“理解向量”。就好比学生彻底理解了题目,形成了清晰的“观察笔记”。
4
解码器(Decoder):带“交叉注意力”的开卷考试
接着来看右边的 Decoder 如何“答题”。
它的任务是:根据已经翻译生成的中文内容,以及 Encoder 提供的“理解笔记”,继续预测下一个 token。
它有三层核心结构:
**第一层:带遮罩的自注意力。如上文所说,**Decoder 是在逐词生成答案,所以必须严格从左到右。
第二层:交叉注意力。
这是完整 Transformer 与 GPT最大的区别!
如果说第一层的自注意力是 Decoder 内部事务 — 一段话内部的词“互相看和找关系“;那么这一层就是在翻看 Encoder 的理解笔记。 过程类似于:
Decoder 拿着当前写到的进度去问 Encoder:“我现在写到“
玫瑰非常”了,英文原句里接下来最关键的信息是什么?”Encoder 的笔记反馈说,原句对应的重点是beautiful。于是 Decoder 吸收了这个关键提示。
当然,真实的注意力机制是很复杂的,涉及到著名的 Key、Value、Query 三者的复杂计算,你可以回顾:[中学生就能看懂:从零开始理解LLM内部原理【六】|什么是“自注意力”?]
- **第三层:前馈网络与输出。**注意力机制负责“找信息”,前馈网络则负责“消化信息”,进行深度的非线性加工。最后通过线性层和 Softmax 算出词表里每个词的概率。
在例子中,因为查了笔记,此时 P(“美丽”) 的概率就会远高于其他词。因此 Decoder 会选择输出下个词:“美丽”。
5
完整的 Transformer 是如何训练出来的?
现在我们再来看看完整的 Transformer 又是怎么被训练出来的。假设我们的训练集里有海量的花朵双语翻译语料:
“The red rose blooms.” → “红玫瑰绽放了。”
“I love daisies.” → “我爱雏菊。”
训练过程就是让它做大量的“翻译填空题”:
准备双语语料:把英文和中文都切成 token。
Encoder 读题:比如把英文
The red rose blooms.输入给 Encoder,得到一组代表原句语义的“理解向量”。Decoder 练题:Decoder 开始逐个词生成中文。
输入
<开始符>,目标:预测红输入
<开始符> 红,目标:预测玫瑰输入
<开始符> 红 玫瑰,目标:预测绽放
不断查笔记与批改:Decoder 在每一步预测时,都会通过“交叉注意力”机制去参考 Encoder 的“理解向量”。如果最后预测错了(比如把“绽放”预测成了“枯萎”),损失函数就会给它扣分。
反向传播更新权重:模型根据扣分情况,反向调整内部的权重参数。
经过千万次这样“读题-试答-批改-调整”的循环,模型终于学会了如何把一种语言的逻辑,完美映射到另一种语言上!
6
但为什么 GPT 成为了主流大语言模型架构?
讲到这里,你可能会有一个很自然的疑问:既然完整 Transformer 的“左右脑分工”这么清晰优雅,为什么今天很多主流大语言模型反而采用了 Decoder-only,也就是 GPT 这条路线呢?
原因在于 GPT 的“续写”模式足够统一。它把翻译、摘要、问答、写代码、聊天这些看起来不同的任务,都改写成同一种形式:
- 翻译:“请把【这朵玫瑰很美】翻译成英文:” ->
续写 - 摘要:“请总结这段关于玫瑰种植的内容:” ->
续写 - 代码:“请写一个 Python 函数画一朵玫瑰:” ->
续写 - 问答:“问题:玫瑰需要多少水分? 回答:” ->
续写 ......
这正是 GPT 路线最强大的地方。模型训练时不需要为每种任务设计不同结构,只需要长期练习同一个基本动作:预测下一个 token。
这条路线有巨大的工程优势:Decoder-only 架构简单、通用、非常适合规模化训练;且数据来源广,网页、书籍、代码、对话都可以变成“下一词预测”的训练材料,不需要为每种任务单独设计输入输出结构。当模型越大,见过的语言模式越多,就越能把“续写”这件事变成一种通用能力。
所以,Encoder-Decoder 像一套分工清晰的系统,但 Decoder-only 更像一台可以被大规模训练放大的通用生成引擎,后者工程上更容易统一、扩展和放大。这也是 GPT 路线成为当前主流 LLM 重要方向的原因。
不过,理解完整的 Transformer 能帮我们看清不同模型的底层关系 — 它们只是 Transformer 这套底层架构的不同装配方式:
在一些需要严谨对齐的“输入到输出”转换任务中,完整的 Transformer 仍然可以得到应用。
7
系列收官:从一个神经元到 LLM,我们到底学会了什么?
最后,我们用三句话总结本篇的核心:
- Transformer 有左右脑:左边 Encoder 负责全局读懂输入,右边 Decoder 负责逐字生成输出。
- 交叉注意力是核心桥梁:Decoder 在生成续写时,会不断回头查阅 Encoder 整理的“理解笔记”。
- GPT 是目前主流 LLM 架构:因为它架构简单、适合规模化,能够用同一种形式适应不同的任务。
到这里,我们《中学生就能看懂:从零开始理解LLM内部原理》系列就完结了。
回头再看:最开始的一个预测“花朵还是叶子”的神经网络,无非就是输入数字,经过加权求和,最后输出结果。
后来,为了让模型认识人类的语言,装上了分词器和嵌入;为了让模型懂得词和词之间的关系,发明了自注意力机制;为了让模型知道词的先后顺序,加上了位置嵌入;为了让几百层的神经网络不崩溃,使用了残差连接和层归一化,最后再用线性层和 Softmax,把内部向量变成下一个 token 的概率。
最后,把这些零件拼成了GPT和Transformer。而模型的训练过程就是:通过损失函数和反向传播不断调整权重的过程。
理解了这条主线,以后再看到新的 LLM 概念,你可以判断它到底是在改进分词、改进注意力、还是扩展上下文、优化训练、提升推理效率等。
这就是本系列希望达到的目标:不是让你去理解复杂的算法或公式,而是帮你在脑子里建立一张 LLM 内部结构的地图。
2026年AI行业最大的机会,毫无疑问就在应用层!
字节跳动已有7个团队全速布局Agent
大模型岗位暴增69%,年薪破百万!
腾讯、京东、百度开放招聘技术岗,80%与AI相关……
如今,超过60%的企业都在推进AI产品落地,而真正能交付项目的大模型应用开发工程师**,**却极度稀缺!
落地AI应用绝对不是写几个prompt,调几个API就能搞定的,企业真正需要的,是能搞定这三项核心能力的人:
✅RAG:融入外部信息,修正模型输出,给模型装靠谱大脑
✅Agent智能体:让AI自主干活,通过工具调用(Tools)环境交互,多步推理完成复杂任务。比如做智能客服等等……
✅微调:针对特定任务优化,让模型适配业务
目前,脉脉上有超过1000家企业发布大模型相关岗位,人工智能岗平均月薪7.8w!实习生日薪高达4000!远超其他行业收入水平!
技术的稀缺性,才是你「值钱」的关键!
具备AI能力的程序员,比传统开发高出不止一截!有的人早就转行AI方向,拿到百万年薪!👇🏻👇🏻
AI浪潮,正在重构程序员的核心竞争力!现在入场,仍是最佳时机!
我把大模型的学习全流程已经整理📚好了!抓住AI时代风口,轻松解锁职业新可能,希望大家都能把握机遇,实现薪资/职业跃迁~
这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】
⭐️从大模型微调到AI Agent智能体搭建
剖析AI技术的应用场景,用实战经验落地AI技术。从GPT到最火的开源模型,让你从容面对AI技术革新!
大模型微调
掌握主流大模型(如DeepSeek、Qwen等)的微调技术,针对特定场景优化模型性能。
学习如何利用领域数据(如制造、医药、金融等)进行模型定制,提升任务准确性和效率。
RAG应用开发
- 深入理解检索增强生成(Retrieval-Augmented Generation, RAG)技术,构建高效的知识检索与生成系统。
- 应用于垂类场景(如法律文档分析、医疗诊断辅助、金融报告生成等),实现精准信息提取与内容生成。
AI Agent智能体搭建
- 学习如何设计和开发AI Agent,实现多任务协同、自主决策和复杂问题解决。
- 构建垂类场景下的智能助手(如制造业中的设备故障诊断Agent、金融领域的投资分析Agent等)。
如果你也有以下诉求:
快速链接产品/业务团队,参与前沿项目
构建技术壁垒,从竞争者中脱颖而出
避开35岁裁员危险期,顺利拿下高薪岗
迭代技术水平,延长未来20年的新职业发展!
……
那这节课你一定要来听!
因为,留给普通程序员的时间真的不多了!
立即扫码,即可免费预约
「AI技术原理 + 实战应用 + 职业发展」
「大模型应用开发实战公开课」
👇👇
👍🏻还有靠谱的内推机会+直聘权益!!
完课后赠送:大模型应用案例集、AI商业落地白皮书
