当前位置：首页 > news >正文

大语言模型架构演进：从BERT到GPT再到Mamba的正确打开方式

news 2026/6/6 11:14:45

先说结论

大模型架构的演进史，本质上是一部"如何更高效承载智能"的优化史。从BERT的双向理解，到GPT的单向生成，再到Mamba的线性复杂度——每一代架构都在解决上一代的瓶颈。

这个东西是什么

想象一下，你要处理一段文字。

BERT就像一个认真阅读的学生——它会先把整篇文章从头到尾看一遍，理解每个词和上下文的关系，然后告诉你这篇文章在说什么。适合做理解类任务，比如情感分析、文本分类。

GPT就像一个边写边想的作家——它从第一个词开始，一个接一个往下写，只能看到已经写过的内容。这种"单向"的特性，让它特别擅长生成文本——写故事、写代码、写回答。

Mamba则像是一个拥有超长记忆的速记员——它不需要记住之前所有的内容，却能以线性复杂度处理百万级别的token。这是对Transformer架构的一次"降维打击"。

为什么你可能用得上

你在做NLP任务选型：理解任务选BERT类，生成任务选GPT类，长文本场景考虑Mamba
你在评估大模型成本：Decoder-only架构虽然流行，但训练和推理成本高昂；Mamba提供了效率优化新思路
你在关注AI前沿：Mamba打破了Transformer的垄断，是2023年最重要的架构创新之一

三大架构怎么选（重点）

Encoder-only：理解专家

典型代表：BERT、RoBERTa、ALBERT

核心特点：双向注意力，能看到整个序列

# BERT的注意力机制示意 # 输入: "我 喜欢 编程" # BERT处理时，"喜欢"可以同时看到"我"和"编程" attention_matrix = [ [1, 1, 1], # "我" 关注所有词 [1, 1, 1], # "喜欢" 关注所有词 [1, 1, 1], # "编程" 关注所有词 ]

适用场景：

文本分类（情感分析、主题识别）
命名实体识别
问答系统（从文中找答案）
语义相似度计算

避坑提示：BERT不适合直接做文本生成——它没有"预测下一个词"的能力。硬要用的话，只能像填空题一样，逐个预测缺失的词，效率低且效果一般。

Decoder-only：生成王者

典型代表：GPT系列、LLaMA系列、Claude

核心特点：单向注意力（因果掩码），只能看到上文

# GPT的注意力机制示意 # 输入: "我 喜欢 编程" # GPT处理时，"喜欢"只能看到"我"，不能偷看"编程" attention_matrix = [ [1, 0, 0], # "我" 只关注自己 [1, 1, 0], # "喜欢" 可关注"我"和自己 [1, 1, 1], # "编程" 可关注全部 ]

为什么Decoder-only成了主流？

原因很简单：规模扩展 + 通用能力涌现。

当模型参数从1亿增长到千亿级别，Decoder-only架构展现出了惊人的能力涌现——上下文学习、链式推理、代码生成，这些能力不是专门训练出来的，而是模型"学会"的。

写注释是为了让半年后的自己能看懂——以及让同事确信你没有发疯。同理，GPT学到的不只是预测下一个词，而是理解了语言的深层结构。

适用场景：

文本生成（文章、故事、代码）
对话系统
翻译（作为生成任务）
通用任务（提示工程 + 少样本学习）

Encoder-Decoder：条件生成专家

典型代表：T5、BART

核心特点：编码器理解输入，解码器生成输出

就像一个翻译官——先听懂你说的话（编码），再用另一种语言表达出来（解码）。

适用场景：

机器翻译
文本摘要
问答生成

为什么不如Decoder-only火？

因为贵。同等参数下，Encoder-Decoder的参数量和计算量都是Decoder-only的近两倍。当GPT证明了"大力出奇迹"后，简单的架构 + 更大的规模，反而成了更优的路线。

Mamba：打破Transformer垄断的黑马

问题来了：Transformer有什么缺陷？

Transformer的自注意力机制，复杂度是O(n²)。

什么意思？处理1000个token，需要计算100万次注意力；处理10000个token，需要计算1亿次。这就像开会时，每个人都要和所有人单独交流——人越多，沟通成本指数级增长。

所以GPT-4的上下文窗口一度限制在8K，不是不想更长，是算不动。

Mamba怎么解决的？

Mamba引入了选择性状态空间模型（Selective SSM）。

核心思想：用线性复杂度的RNN式更新，替代二次复杂度的注意力机制。

# 传统Transformer：每个token要和所有历史token计算注意力 # 复杂度: O(n²) for i in range(n): for j in range(i+1): attention[i] += query[i] * key[j] # Mamba：维护一个压缩的历史状态 # 复杂度: O(n) state = initial_state for i in range(n): state = update(state, input[i]) # 只用当前状态和输入 output[i] = predict(state)

这就像从"开会所有人互相交流"变成"每个人只和主持人对接"——效率直线提升。