当前位置: 首页 > news >正文

从 RNN 到 GPT:大模型架构演化史

网罗开发(小红书、快手、视频号同名)

大家好,我是展菲,目前在上市企业从事人工智能项目研发管理工作,平时热衷于分享各种编程领域的软硬技能知识以及前沿技术,包括iOS、前端、Harmony OS、Java、Python等方向。在移动端开发、鸿蒙开发、物联网、嵌入式、云原生、开源等领域有深厚造诣。

图书作者:《ESP32-C3 物联网工程开发实战》
图书作者:《SwiftUI 入门,进阶与实战》
超级个体:COC上海社区主理人
特约讲师:大学讲师,谷歌亚马逊分享嘉宾
科技博主:华为HDE/HDG

我的博客内容涵盖广泛,主要分享技术教程、Bug解决方案、开发工具使用、前沿科技资讯、产品评测与使用体验。我特别关注云服务产品评测、AI 产品对比、开发板性能测试以及技术报告,同时也会提供产品优缺点分析、横向对比,并分享技术沙龙与行业大会的参会体验。我的目标是为读者提供有深度、有实用价值的技术洞察与分析。

展菲:您的前沿技术领航员
👋 大家好,我是展菲!
📱 全网搜索“展菲”,即可纵览我在各大平台的知识足迹。
每周定时推送干货满满的技术长文,从新兴框架的剖析到运维实战的复盘,助您技术进阶之路畅通无阻。


文章目录

    • 引言
    • 一、RNN:第一次让 AI 拥有「记忆」
    • 二、为什么 RNN 注定会失败?
    • 三、LSTM:给 RNN 加了一块「记忆芯片」
    • 四、Transformer:真正改变世界的是并行计算
    • 五、为什么最终赢的是 GPT,而不是 BERT?
    • 六、MoE:参数越来越大,成本却越来越低
    • 七、Agent:AI 正在从模型演变成系统
    • 总结:AI 架构演化的真正主线

引言

过去十几年,大模型架构几乎每隔几年就会发生一次革命。

很多人看到的是:

RNN ↓ LSTM ↓ Transformer ↓ GPT ↓ MoE ↓ Agent

但真正推动这条演化路线的,并不是论文,而是一个始终没有改变的问题:

如何让 AI 更好地理解上下文,同时以更低的成本完成更复杂的任务?

回顾整个 AI 架构的发展,你会发现每一代模型其实都在解决上一代留下的瓶颈。

今天,我们就从系统架构的角度,回顾这十几年的 AI 架构演化史。

一、RNN:第一次让 AI 拥有「记忆」

在 RNN 出现之前,大多数神经网络都是:

输入 ↓ 计算 ↓ 输出

每个词都是独立处理,模型根本不知道:

今天 天气 很好

三个词之间存在关联。

RNN 引入了 Hidden State,把上一时刻的信息传递给下一时刻。

整个流程变成:

Token1 ↓ Hidden State ↓ Token2 ↓ Hidden State ↓ Token3

模型第一次拥有了:

上下文 顺序 短期记忆

机器翻译、语音识别等任务因此取得了巨大突破。

二、为什么 RNN 注定会失败?

RNN 最大的问题不是效果,而是架构。

所有 Token 都必须按顺序计算:

Token1 ↓ Token2 ↓ Token3

无法并行,而 GPU 最擅长的是:

矩阵计算

随着模型越来越大,GPU 的计算能力越来越强,但 RNN 却无法充分利用这些算力。

同时,Hidden State 还会随着序列变长不断衰减,导致经典的问题:

梯度消失 长期依赖

因此,RNN 的瓶颈其实不是算法,而是计算架构。

三、LSTM:给 RNN 加了一块「记忆芯片」

LSTM 可以理解为升级版 RNN,它引入了 Memory Cell,并增加:

Forget Gate Input Gate Output Gate

三种门控机制,模型终于可以决定:

哪些信息保留? 哪些信息遗忘?

相比普通 RNN,LSTM 能够处理更长的文本,也成为 NLP 的主流架构。

但遗憾的是,它依然保留了 RNN 最大的问题:

串行计算。

GPU 利用率始终提不上来。

四、Transformer:真正改变世界的是并行计算

2017 年,《Attention Is All You Need》发布。很多人认为,Transformer 最大的创新是 Self-Attention。

其实,从工程角度来看,真正改变 AI 世界的是:

Transformer 第一次真正拥抱了 GPU。

过去:

Token1 ↓ Token2 ↓ Token3

必须依次执行,现在:

所有 Token ↓ 同时进入 Self-Attention ↓ 并行计算

训练速度得到数量级提升。Transformer 不仅解决了长期依赖问题,还让 GPU 的计算能力得到充分释放。

AI 开始进入 Scale Up 时代。

五、为什么最终赢的是 GPT,而不是 BERT?

Transformer 发布之后,最先爆火的是:

BERT

它采用 Encoder Only 架构,理解能力很强。但真正改变行业的是 GPT。

原因在于 GPT 采用了 Decoder Only 架构,训练目标非常简单:

预测下一个 Token

这种方式更容易:

扩展参数 扩展数据 扩展算力

于是 OpenAI 发现了著名的:

Scaling Law

模型越大,数据越多,算力越强,模型能力几乎持续提升。

GPT 真正改变世界的,并不是架构,而是证明了:

模型可以通过持续扩大规模不断获得更强能力。

六、MoE:参数越来越大,成本却越来越低

随着 GPT 参数不断增长,一个新的问题出现了。例如:

600B 参数

每生成一个 Token,都需要激活全部参数。推理成本急剧增加,于是 MoE(Mixture of Experts)开始流行。

它把模型拆成多个 Expert:

Router ↓ Expert 1 Expert 8 Expert 21

每次推理只激活少量 Expert。例如:

671B 参数 ↓ 仅激活 37B

模型能力保持增长,而推理成本却大幅下降。

DeepSeek、Mixtral、Qwen-MoE 等模型都采用了这一思路。

七、Agent:AI 正在从模型演变成系统

今天,大模型的发展方向已经不再只是:

更大的参数 更高的分数

而是:

Planner Memory Tool Workflow Runtime

越来越多能力开始从模型内部迁移到系统架构。

传统 GPT:

Prompt ↓ LLM ↓ Response

Agent:

Goal ↓ Planner ↓ Tool ↓ Memory ↓ LLM ↓ Execution

此时,大模型更像 CPU。真正负责完成任务的是 Runtime。

AI 正在从一个模型演变成一个完整的智能系统。

总结:AI 架构演化的真正主线

如果回顾过去十几年的发展,会发现每一次架构升级,其实都是为了突破一个工程瓶颈。

传统神经网络 │ ▼ RNN(解决上下文) │ ▼ LSTM(解决长期依赖) │ ▼ Transformer(解决并行计算) │ ▼ GPT(解决规模扩展) │ ▼ MoE(解决推理成本) │ ▼ Agent(解决任务执行)

换句话说,AI 架构的发展从来不是简单的技术迭代,而是一场围绕记忆、计算、扩展、成本和执行能力展开的持续演进。

过去十年,行业竞争的是:

谁的模型更大。

未来十年,更重要的问题可能变成:

谁的智能系统效率更高。

因为对于下一代 AI 来说,Transformer、GPT、MoE 都只是智能的基础组件,而真正决定生产力的,将是围绕模型构建的 Memory、Planner、Tool 与 Runtime。

http://www.jsqmd.com/news/1082875/

相关文章:

  • PS 怎么把人像 p 到另一张照片上?零基础无痕合成完整教程
  • GmSSL架构实战:国密算法在现代安全系统中的深度集成方案
  • 告别DLL错误:Visual C++ Redistributable AIO一键解决Windows程序运行难题 [特殊字符]
  • 凭什么要用余弦退火,不用正弦退火
  • 双材料打印服务,精准定制每一件精品
  • 优刻得GPU+GLM-5+vLLM推理落地实战:A10高性价比部署指南
  • OpenCore Legacy Patcher终极指南:让老Mac重获新生,体验最新macOS系统
  • 6款论文降AI率平台横评:键清零AI痕迹,这款性价比封神
  • Qwerty Learner:解锁键盘工作者的英语肌肉记忆训练新体验
  • 三步解锁小爱音箱音乐自由:你的专属智能音乐管家
  • WindowResizer:3步解决Windows顽固窗口调整难题的终极免费工具
  • 企业微信AI Agent:企微官方能力+企业微信服务商方案+AI SCRM选型指南解读
  • AI 核算真的能降碳吗? - 蓝色星球
  • 036、CA 坐标注意力插入 Backbone(位置一):把位置信息编码进通道注意力的代码
  • AI 与数字化重塑新能源经销服务:下沉市场门店的转型实践拆解
  • Adobe-GenP终极指南:三步解锁Adobe全家桶专业功能
  • Win11 OpenClaw全流程报错排查指南|解压 / 安装 / 启动问题优化方案
  • 深度揭秘DiskInfo:现代硬盘监测工具开发实战指南
  • 【Springboot毕设全套源码+文档】基于SpringBoot的学生评奖评优管理系统的设计与实现(丰富项目+远程调试+讲解+定制)
  • IT爱学堂-Excel VBA编程与ChatGPT自动化实战-宏录制/条件判断(完结),Python AI 数字化实战:从 Pandas 自动化到 DeepSeek “星逻系统”开发(完结)
  • 高温工况下,温度变送器为什么总是电路板先挂?
  • HMCL启动器终极内存优化指南:让4GB电脑流畅玩转高版本Minecraft [特殊字符]
  • 如何永久保存微信聊天记录?5步掌握数据备份与年度报告生成
  • 踩过 4 个 AI 写作坑才敢说:Gradpaper 才是真・适配毕业论文的专业工具
  • Security threats on Data-Driven Approaches for Luggage Screening论文精读
  • 北京永强数据恢复中心北京排名第一硬盘电机不转故障数据恢复
  • 差异分析R包一大堆,到底该用哪个?一篇帮你理清思路
  • CAT1 RTU工业物联网方案:TCP+Modbus+GNSS三合一设计
  • C 语言指针数据隐藏难题:从原理困惑到巧妙解决
  • KMS_VL_ALL_AIO终极指南:Windows和Office一键激活完整解决方案