当前位置：首页 > news >正文

中学生就能看懂：Transformer的左右脑分工与GPT的火爆之谜！

news 2026/5/6 7:36:30

Transformer 架构

上一篇我们讲了 GPT。GPT 最容易理解的地方在于，它本质上是一个会续写的模型 — 把文本生成拆成了一连串“预测下一个词”的过程。

但GPT 并不是完整的 Transformer — GPT 采用的是 Transformer 的 Decoder-only 架构（仅解码器），把它发展成了一个非常擅长生成文本的系统。而 Transformer 的标准结构，其实由两部分组成：Encoder 和 Decoder。

这里面的区别，就是本篇的重点。

为什么会需要完整的 Transformer？

我们把 GPT 比作一个正在考场上写作文的学生：它只能看见自己已经写下的内容，然后顺着逻辑继续往下编。你可以让它描写玫瑰、写 Python 代码、或者和它聊天，它都能通过“预测下一个词”来完成。

但我们回到 Transformer 刚被发明时的核心任务：机器翻译。假设要把一句英文翻译成中文：

The rose is very beautiful.

如果用 GPT 的思路，你只能把题目和答案拼在一起，给它这样一个提示词：

请把英文“The rose is very beautiful.”翻译成中文：

然后让 GPT 继续往下续写：

这套方法确实能用（如今的主流大语言模型就是这么做的）。但它也确实显得不够优雅，最开始的主要问题是：

上下文挤占：如果原句特别长（比如一大篇关于玫瑰的英文说明），前面输入的原题信息，可能会被后面生成的中文给“挤出去”。
任务混杂：模型必须在同一个流水线里，既要处理英文的语法（读懂原文），又要处理中文的逻辑（输出译文），还要自己领悟“哪些是原文、哪里开始是输出的结果，哪里要被重点参考”等等。

所以，Transformer 最初采用了一种分工更明确、更清晰的思路：

不把“理解原文”和“生成译文”混在一起。先用一个模块把原文彻底读懂，再用另一个模块根据理解的结果写出答案。

这就是 Transformer 的基本思想：Encoder 负责读懂，Decoder 负责生成。

完整 Transformer：左脑读懂，右脑生成

上篇我们已经看过完整的 Transformer 架构图：

别被图吓到，拆开来看全是我们前 13 篇介绍过的主题：嵌入、位置嵌入、多头注意力、残差连接、层归一化等。

如果用最易懂的语言来解释 Transformer 的流水线：

输入内容先进入 Encoder，被加工成一组“理解笔记”；随后 Decoder 一边看着自己已经写下的部分，一边查阅“笔记”，向后预测，直到生成最终答案。

继续用上面的机器翻译的例子。

**Encoder 过程就像一个读题的学生：**它先把The rose is very beautiful 这句话从头到尾完整看一遍，把句子里词与词的关系、重点（比如 rose 是主语，beautiful 是核心形容词）整理成一份包含深度语义的“向量笔记”。

**Decoder 则像答题的学生：**它开始生成中文。每写下一个词（比如刚写完“玫瑰”），它都会回头参考两部分信息：

自己已经写了什么？（我刚写了“玫瑰”）
读题学生的“理解笔记”里关键信息是什么？（比如，原句后面说的是very beautiful）

于是 Decoder 自信地输出下一个词：非常。

编码器（Encoder）：全局视角的阅读理解

先看左边的 Encoder。它的任务很好懂：把输入的原文序列读懂。

在输入英文“The rose is very beautiful”后，Encoder 的过程和 GPT 模型的前向传播过程相似：

第一步，分词与嵌入，再加上位置嵌入，让每个词变成带有顺序信息的数字向量。
接下来，进入多层的 Encoder Block 进行加工。这里的重点是多头注意力机制与前馈网络（以及每个子层都会做的残差、层归一化等），和 GPT 训练的前向传播类似，但又有一个重要的区别：Encoder 里的自注意力机制是不加“遮罩（Mask）”的。

GPT 模型训练时的“遮罩”是什么？

遮罩可以理解成注意力机制里的一个“挡板”。在 GPT 训练时，为了提高效率，通常会把一整句话送进模型，让它在每个位置同时预测下一个 token。比如输入“花园里的玫瑰非常美丽”，模型要学会在“玫瑰”后面预测“非常”，也要在“非常”后面预测“美丽”。如果不加遮罩，模型在预测时就能直接偷看到右侧的真实答案。所以就需要“挡住”每个位置右边的未来 token。

这是因为 Encoder 是在做“阅读理解”。当你读一句完整的英文时，你当然可以一眼看到整句话，而不需要假装看不见后面的词，比如rose可以同时和beautiful交换信息，互相理解。

经过多层处理，最开始的“词向量”，就变成了一组深度融合了整句上下文语境的“理解向量”。就好比学生彻底理解了题目，形成了清晰的“观察笔记”。

解码器（Decoder）：带“交叉注意力”的开卷考试

接着来看右边的 Decoder 如何“答题”。

它的任务是：根据已经翻译生成的中文内容，以及 Encoder 提供的“理解笔记”，继续预测下一个 token。

它有三层核心结构：

**第一层：带遮罩的自注意力。如上文所说，**Decoder 是在逐词生成答案，所以必须严格从左到右。
第二层：交叉注意力。
这是完整 Transformer 与 GPT最大的区别！
如果说第一层的自注意力是 Decoder 内部事务 — 一段话内部的词“互相看和找关系“；那么这一层就是在翻看 Encoder 的理解笔记。过程类似于：
Decoder 拿着当前写到的进度去问 Encoder：“我现在写到“玫瑰非常”了，英文原句里接下来最关键的信息是什么？”Encoder 的笔记反馈说，原句对应的重点是beautiful。于是 Decoder 吸收了这个关键提示。

当然，真实的注意力机制是很复杂的，涉及到著名的 Key、Value、Query 三者的复杂计算，你可以回顾：[中学生就能看懂：从零开始理解LLM内部原理【六】｜什么是“自注意力”？]

**第三层：前馈网络与输出。**注意力机制负责“找信息”，前馈网络则负责“消化信息”，进行深度的非线性加工。最后通过线性层和 Softmax 算出词表里每个词的概率。

在例子中，因为查了笔记，此时 P(“美丽”) 的概率就会远高于其他词。因此 Decoder 会选择输出下个词：“美丽”。

完整的 Transformer 是如何训练出来的？

现在我们再来看看完整的 Transformer 又是怎么被训练出来的。假设我们的训练集里有海量的花朵双语翻译语料：

“The red rose blooms.” → “红玫瑰绽放了。”

“I love daisies.” → “我爱雏菊。”

训练过程就是让它做大量的“翻译填空题”：

准备双语语料：把英文和中文都切成 token。
Encoder 读题：比如把英文The red rose blooms.输入给 Encoder，得到一组代表原句语义的“理解向量”。
Decoder 练题：Decoder 开始逐个词生成中文。
- 输入<开始符>，目标：预测红
- 输入<开始符> 红，目标：预测玫瑰
- 输入<开始符> 红玫瑰，目标：预测绽放
不断查笔记与批改：Decoder 在每一步预测时，都会通过“交叉注意力”机制去参考 Encoder 的“理解向量”。如果最后预测错了（比如把“绽放”预测成了“枯萎”），损失函数就会给它扣分。
反向传播更新权重：模型根据扣分情况，反向调整内部的权重参数。

经过千万次这样“读题-试答-批改-调整”的循环，模型终于学会了如何把一种语言的逻辑，完美映射到另一种语言上！

但为什么 GPT 成为了主流大语言模型架构？

讲到这里，你可能会有一个很自然的疑问：既然完整 Transformer 的“左右脑分工”这么清晰优雅，为什么今天很多主流大语言模型反而采用了 Decoder-only，也就是 GPT 这条路线呢？

原因在于 GPT 的“续写”模式足够统一。它把翻译、摘要、问答、写代码、聊天这些看起来不同的任务，都改写成同一种形式：

翻译：“请把【这朵玫瑰很美】翻译成英文：” ->续写
摘要：“请总结这段关于玫瑰种植的内容：” ->续写
代码：“请写一个 Python 函数画一朵玫瑰：” ->续写
问答：“问题：玫瑰需要多少水分？回答：” ->续写
......

这正是 GPT 路线最强大的地方。模型训练时不需要为每种任务设计不同结构，只需要长期练习同一个基本动作：预测下一个 token。

这条路线有巨大的工程优势：Decoder-only 架构简单、通用、非常适合规模化训练；且数据来源广，网页、书籍、代码、对话都可以变成“下一词预测”的训练材料，不需要为每种任务单独设计输入输出结构。当模型越大，见过的语言模式越多，就越能把“续写”这件事变成一种通用能力。

所以，Encoder-Decoder 像一套分工清晰的系统，但 Decoder-only 更像一台可以被大规模训练放大的通用生成引擎，后者工程上更容易统一、扩展和放大。这也是 GPT 路线成为当前主流 LLM 重要方向的原因。

不过，理解完整的 Transformer 能帮我们看清不同模型的底层关系 — 它们只是 Transformer 这套底层架构的不同装配方式：

在一些需要严谨对齐的“输入到输出”转换任务中，完整的 Transformer 仍然可以得到应用。

系列收官：从一个神经元到 LLM，我们到底学会了什么？

最后，我们用三句话总结本篇的核心：

Transformer 有左右脑：左边 Encoder 负责全局读懂输入，右边 Decoder 负责逐字生成输出。
交叉注意力是核心桥梁：Decoder 在生成续写时，会不断回头查阅 Encoder 整理的“理解笔记”。
GPT 是目前主流 LLM 架构：因为它架构简单、适合规模化，能够用同一种形式适应不同的任务。

到这里，我们《中学生就能看懂：从零开始理解LLM内部原理》系列就完结了。

回头再看：最开始的一个预测“花朵还是叶子”的神经网络，无非就是输入数字，经过加权求和，最后输出结果。

后来，为了让模型认识人类的语言，装上了分词器和嵌入；为了让模型懂得词和词之间的关系，发明了自注意力机制；为了让模型知道词的先后顺序，加上了位置嵌入；为了让几百层的神经网络不崩溃，使用了残差连接和层归一化，最后再用线性层和 Softmax，把内部向量变成下一个 token 的概率。

最后，把这些零件拼成了GPT和Transformer。而模型的训练过程就是：通过损失函数和反向传播不断调整权重的过程。

理解了这条主线，以后再看到新的 LLM 概念，你可以判断它到底是在改进分词、改进注意力、还是扩展上下文、优化训练、提升推理效率等。

这就是本系列希望达到的目标：不是让你去理解复杂的算法或公式，而是帮你在脑子里建立一张 LLM 内部结构的地图。

2026年AI行业最大的机会，毫无疑问就在应用层！

字节跳动已有7个团队全速布局Agent

大模型岗位暴增69%，年薪破百万！

腾讯、京东、百度开放招聘技术岗，80%与AI相关……

如今，超过60%的企业都在推进AI产品落地，而真正能交付项目的大模型应用开发工程师**，**却极度稀缺！

落地AI应用绝对不是写几个prompt，调几个API就能搞定的，企业真正需要的，是能搞定这三项核心能力的人：

✅RAG：融入外部信息，修正模型输出，给模型装靠谱大脑

✅Agent智能体：让AI自主干活，通过工具调用（Tools）环境交互，多步推理完成复杂任务。比如做智能客服等等……

✅微调：针对特定任务优化，让模型适配业务