当前位置：首页 > news >正文

从 RNN 到 GPT：大模型架构演化史

news 2026/6/26 18:11:59

网罗开发（小红书、快手、视频号同名）

大家好，我是展菲，目前在上市企业从事人工智能项目研发管理工作，平时热衷于分享各种编程领域的软硬技能知识以及前沿技术，包括iOS、前端、Harmony OS、Java、Python等方向。在移动端开发、鸿蒙开发、物联网、嵌入式、云原生、开源等领域有深厚造诣。

图书作者：《ESP32-C3 物联网工程开发实战》
图书作者：《SwiftUI 入门，进阶与实战》
超级个体：COC上海社区主理人
特约讲师：大学讲师，谷歌亚马逊分享嘉宾
科技博主：华为HDE/HDG

我的博客内容涵盖广泛，主要分享技术教程、Bug解决方案、开发工具使用、前沿科技资讯、产品评测与使用体验。我特别关注云服务产品评测、AI 产品对比、开发板性能测试以及技术报告，同时也会提供产品优缺点分析、横向对比，并分享技术沙龙与行业大会的参会体验。我的目标是为读者提供有深度、有实用价值的技术洞察与分析。

展菲：您的前沿技术领航员
👋 大家好，我是展菲！
📱 全网搜索“展菲”，即可纵览我在各大平台的知识足迹。
每周定时推送干货满满的技术长文，从新兴框架的剖析到运维实战的复盘，助您技术进阶之路畅通无阻。

文章目录

- 引言
- 一、RNN：第一次让 AI 拥有「记忆」
- 二、为什么 RNN 注定会失败？
- 三、LSTM：给 RNN 加了一块「记忆芯片」
- 四、Transformer：真正改变世界的是并行计算
- 五、为什么最终赢的是 GPT，而不是 BERT？
- 六、MoE：参数越来越大，成本却越来越低
- 七、Agent：AI 正在从模型演变成系统
- 总结：AI 架构演化的真正主线

引言

过去十几年，大模型架构几乎每隔几年就会发生一次革命。

很多人看到的是：

RNN ↓ LSTM ↓ Transformer ↓ GPT ↓ MoE ↓ Agent

但真正推动这条演化路线的，并不是论文，而是一个始终没有改变的问题：

如何让 AI 更好地理解上下文，同时以更低的成本完成更复杂的任务？

回顾整个 AI 架构的发展，你会发现每一代模型其实都在解决上一代留下的瓶颈。

今天，我们就从系统架构的角度，回顾这十几年的 AI 架构演化史。

一、RNN：第一次让 AI 拥有「记忆」

在 RNN 出现之前，大多数神经网络都是：

输入 ↓ 计算 ↓ 输出

每个词都是独立处理，模型根本不知道：

今天 天气 很好

三个词之间存在关联。

RNN 引入了 Hidden State，把上一时刻的信息传递给下一时刻。

整个流程变成：

Token1 ↓ Hidden State ↓ Token2 ↓ Hidden State ↓ Token3

模型第一次拥有了：

上下文 顺序 短期记忆

机器翻译、语音识别等任务因此取得了巨大突破。

二、为什么 RNN 注定会失败？

RNN 最大的问题不是效果，而是架构。

所有 Token 都必须按顺序计算：

Token1 ↓ Token2 ↓ Token3

无法并行，而 GPU 最擅长的是：

矩阵计算

随着模型越来越大，GPU 的计算能力越来越强，但 RNN 却无法充分利用这些算力。

同时，Hidden State 还会随着序列变长不断衰减，导致经典的问题：

梯度消失 长期依赖

因此，RNN 的瓶颈其实不是算法，而是计算架构。

三、LSTM：给 RNN 加了一块「记忆芯片」

LSTM 可以理解为升级版 RNN，它引入了 Memory Cell，并增加：

Forget Gate Input Gate Output Gate

三种门控机制，模型终于可以决定：

哪些信息保留？ 哪些信息遗忘？

相比普通 RNN，LSTM 能够处理更长的文本，也成为 NLP 的主流架构。

但遗憾的是，它依然保留了 RNN 最大的问题：

串行计算。

GPU 利用率始终提不上来。

四、Transformer：真正改变世界的是并行计算

2017 年，《Attention Is All You Need》发布。很多人认为，Transformer 最大的创新是 Self-Attention。

其实，从工程角度来看，真正改变 AI 世界的是：

Transformer 第一次真正拥抱了 GPU。

过去：

Token1 ↓ Token2 ↓ Token3

必须依次执行，现在：

所有 Token ↓ 同时进入 Self-Attention ↓ 并行计算

训练速度得到数量级提升。Transformer 不仅解决了长期依赖问题，还让 GPU 的计算能力得到充分释放。

AI 开始进入 Scale Up 时代。

五、为什么最终赢的是 GPT，而不是 BERT？

Transformer 发布之后，最先爆火的是：

BERT

它采用 Encoder Only 架构，理解能力很强。但真正改变行业的是 GPT。

原因在于 GPT 采用了 Decoder Only 架构，训练目标非常简单：

预测下一个 Token

这种方式更容易：

扩展参数 扩展数据 扩展算力

于是 OpenAI 发现了著名的：

Scaling Law

模型越大，数据越多，算力越强，模型能力几乎持续提升。

GPT 真正改变世界的，并不是架构，而是证明了：

模型可以通过持续扩大规模不断获得更强能力。

六、MoE：参数越来越大，成本却越来越低

随着 GPT 参数不断增长，一个新的问题出现了。例如：

600B 参数

每生成一个 Token，都需要激活全部参数。推理成本急剧增加，于是 MoE（Mixture of Experts）开始流行。

它把模型拆成多个 Expert：

Router ↓ Expert 1 Expert 8 Expert 21

每次推理只激活少量 Expert。例如：

671B 参数 ↓ 仅激活 37B

模型能力保持增长，而推理成本却大幅下降。

DeepSeek、Mixtral、Qwen-MoE 等模型都采用了这一思路。

七、Agent：AI 正在从模型演变成系统

今天，大模型的发展方向已经不再只是：

更大的参数 更高的分数

而是：

Planner Memory Tool Workflow Runtime

越来越多能力开始从模型内部迁移到系统架构。

传统 GPT：

Prompt ↓ LLM ↓ Response

Agent：

Goal ↓ Planner ↓ Tool ↓ Memory ↓ LLM ↓ Execution

此时，大模型更像 CPU。真正负责完成任务的是 Runtime。

AI 正在从一个模型演变成一个完整的智能系统。

总结：AI 架构演化的真正主线

如果回顾过去十几年的发展，会发现每一次架构升级，其实都是为了突破一个工程瓶颈。

传统神经网络 │ ▼ RNN（解决上下文） │ ▼ LSTM（解决长期依赖） │ ▼ Transformer（解决并行计算） │ ▼ GPT（解决规模扩展） │ ▼ MoE（解决推理成本） │ ▼ Agent（解决任务执行）

换句话说，AI 架构的发展从来不是简单的技术迭代，而是一场围绕记忆、计算、扩展、成本和执行能力展开的持续演进。

过去十年，行业竞争的是：

谁的模型更大。

未来十年，更重要的问题可能变成：

谁的智能系统效率更高。

因为对于下一代 AI 来说，Transformer、GPT、MoE 都只是智能的基础组件，而真正决定生产力的，将是围绕模型构建的 Memory、Planner、Tool 与 Runtime。

查看全文

http://www.jsqmd.com/news/1082875/

PS 怎么把人像 p 到另一张照片上？零基础无痕合成完整教程

GmSSL架构实战：国密算法在现代安全系统中的深度集成方案

告别DLL错误：Visual C++ Redistributable AIO一键解决Windows程序运行难题 [特殊字符]

凭什么要用余弦退火，不用正弦退火

双材料打印服务，精准定制每一件精品

优刻得GPU+GLM-5+vLLM推理落地实战：A10高性价比部署指南

OpenCore Legacy Patcher终极指南：让老Mac重获新生，体验最新macOS系统

6款论文降AI率平台横评：键清零AI痕迹，这款性价比封神

Qwerty Learner：解锁键盘工作者的英语肌肉记忆训练新体验

三步解锁小爱音箱音乐自由：你的专属智能音乐管家

WindowResizer：3步解决Windows顽固窗口调整难题的终极免费工具

企业微信AI Agent：企微官方能力+企业微信服务商方案+AI SCRM选型指南解读

AI 核算真的能降碳吗？ - 蓝色星球

036、CA 坐标注意力插入 Backbone（位置一）：把位置信息编码进通道注意力的代码

AI 与数字化重塑新能源经销服务：下沉市场门店的转型实践拆解

Adobe-GenP终极指南：三步解锁Adobe全家桶专业功能

Win11 OpenClaw全流程报错排查指南｜解压 / 安装 / 启动问题优化方案

深度揭秘DiskInfo：现代硬盘监测工具开发实战指南

【Springboot毕设全套源码+文档】基于SpringBoot的学生评奖评优管理系统的设计与实现(丰富项目+远程调试+讲解+定制)

IT爱学堂-Excel VBA编程与ChatGPT自动化实战-宏录制/条件判断(完结),Python AI 数字化实战：从 Pandas 自动化到 DeepSeek “星逻系统”开发(完结)

高温工况下，温度变送器为什么总是电路板先挂？

HMCL启动器终极内存优化指南：让4GB电脑流畅玩转高版本Minecraft [特殊字符]

如何永久保存微信聊天记录？5步掌握数据备份与年度报告生成

踩过 4 个 AI 写作坑才敢说：Gradpaper 才是真・适配毕业论文的专业工具

Security threats on Data-Driven Approaches for Luggage Screening论文精读

北京永强数据恢复中心北京排名第一硬盘电机不转故障数据恢复

差异分析R包一大堆，到底该用哪个？一篇帮你理清思路

CAT1 RTU工业物联网方案：TCP+Modbus+GNSS三合一设计

C 语言指针数据隐藏难题：从原理困惑到巧妙解决

KMS_VL_ALL_AIO终极指南：Windows和Office一键激活完整解决方案