大模型的探索与实践-课程笔记(十一):大模型发展史与全球厂商业态全景
第一部分:从 NLP 到 Transformer 的底层架构演进
早期的自然语言处理(NLP)主要依赖特征提取,大模型的基石是 Google 提出的架构革命。
1. Transformer 与注意力机制 (2017年)
- 起源:Google 2017年发表神作《Attention is all you need》。
- 核心思想:打破了传统的序列结构,将原本作为附属组件的注意力机制 (Attention Mechanism)提拔为整个网络的核心。
- 双结构:包含Encoder(编码器):负责将文字转化为特征(Embedding);和Decoder(解码器):负责将特征转化为下文输出。
2. Encoder 路线代表:BERT (2018年)
- 出品:Google。
- 特性:仅使用 Encoder 结构。它是一个“偏科”于提取特征的模型,极其擅长非生成式任务(如阅读理解、情感分类)。
- 局限:不能直接输出答案,通常需要在其提取的特征(Feature)后面再外接一个简单的神经网络来完成下游任务。
3. Decoder 路线代表:GPT (2018年)
- 出品:OpenAI。
- 特性:仅使用 Decoder 结构。它主打“生成(Generative)”,即一个字一个字往外蹦。
- 早期劣势:在 GPT-1 和 GPT-2 时代,其综合表现被 BERT “按在地上打”。当时业界普遍认为 Decoder 路线是落后产能。
第二部分:Scaling Law 与大模型时代的真正降临
OpenAI 在逆境中坚守 Decoder 路线,并发现了一个颠覆传统机器学习认识的定律。
1. 核心理论:Scaling Law (约2020年)
- 传统认知:模型参数越大,越容易导致过拟合(Overfitting),从而让效果变差。
- Scaling Law 结论:打破常规!在有限的算力资源下,增加“模型参数量”比单纯增加“数据集大小”带来的收益更高。模型越大,效果就是越好。
- 意义:这句话直接定义了“大”模型时代。各大厂商不再纠结于微调架构连接方式,而是开始大力堆叠参数量(砸钱上显卡)。
2. 涌现能力的诞生:GPT-3 到 ChatGPT
- GPT-3 (2020年):参数量比 GPT-2 暴增约100倍。随着参数量跨过阈值,模型“涌现”出了In-Context Learning (上下文学习)能力。此时,GPT 与 BERT 已经平分秋色(生成式用 GPT,理解式用 BERT)。
- ChatGPT (2022年底):基于 GPT-3.5 打造。极大优化了对话体验,首次将大模型推向全民商用,拉开了疯狂的全球百模大战。
第三部分:国内大模型厂商业态与演进
1. 早期拓荒与“大模型六小虎” (2023年)
- 百度 (文心一言):国内首个发布的大模型,技术起步极早,与 ChatGPT 同期训练。但因早期采用了“落后的付费会员制策略”,被后来免费竞品抢占了极大的民间市场。
- 智谱 AI (ChatGLM):清华系。早期极其偏重To-G(政府)和 To-B 业务,To-C 网页端体验较差。但近期凭借极其便宜的 API 价格和极佳的AI Coding (代码生成) 能力,再度爆火。
- 月之暗面 (Kimi):清华系。突围杀手锏是颠覆性的“长文本支持”。在众厂商普遍只支持 20K 上下文时,Kimi 率先支持到 200K,彻底引爆了“AI 读长篇论文”的市场需求。
2. 当前国内绝对第一梯队 (大厂主导)
在大模型极度烧钱的当下,局势最终过渡到了巨头手中:
- 通义千问 (阿里):开源生态第一与 Pre-training 极佳。模型参数规格最全(0.5B 到大规格均有),部署适配性最强。
- 豆包 (字节跳动):市占率第一与多模态极强。背靠巨大流量入口,语音/图像等多模态插件体验当前业界最佳。
- DeepSeek (幻方):基建 (Infra) 与数学推理 (Reasoning) 无敌。非传统互联网大厂出身,以较低的开发成本做出了极强的理科对标能力(直接对标 OpenAI 的 o1 推理路径)。
- 腾讯 (潜力股):虽然当前模型被戏称为“套皮”,但拥有全网最恐怖的私域数据池。数据是大模型的核心壁垒,只要给足时间,后期发力不可估量。
第四部分:海外大模型厂商业态与演进
- OpenAI (GPT系列):行业风向标。GPT-4 主打多模态,最新发布的 o1 系列主导高深度逻辑推理 (Reasoning)。
- Google (Gemini):拥有极强的财力与极高的数据质量壁垒。Gemini 1.5 Pro 在图片推理上下文连贯性、以及辅助研究应用(深研功能/NotebookLM)上处于断崖式领先。
- Anthropic (Claude):全球 AI Coding 第一。创始人原属 OpenAI(更早有百度背景)。对齐与合规极其严格(严封国内节点),其推出的 Claude Code 在非图形化编程插件领域极佳。
- Meta (Llama):全球开源界的王者(尽管 v4 版本传闻搁浅,但 v2/v3 极大地推动了全球开源大模型的发展)。
- xAI (Grok):马斯克旗下。主打“无审查 (弱安全对齐)”,基本问什么答什么,适合反抗被过度和谐的输出场景。
AI 工具与模型专项梳理
| 工具分类 | 工具/模型名称 | 核心功能与应用领域 | 亮点/启发 |
|---|---|---|---|
| 开源架构祖师 | Transformer | 奠定当前大语言模型基石的基础架构,利用注意力机制进行编解码。 | 一篇《Attention is all you need》启发了后续所有 LLM 战局,证明了注意力机制的通用性。 |
| 理论法则 | Scaling Law | 揭示了算力、参数量与效果边界的对撞法则。 | 打破了做小而美模型的执念,通过数学直觉指明了“大力出奇迹(扩参数优于纯堆数据)”的大厂发展路径。 |
| 长文本模型代表 | Kimi (月之暗面) | 支持极长上下文(200K级别)的文本阅读与分析大模型。 | 在大模型商用初期,精准切中了科研人群“超长PDF/研报”阅读的痛点,靠“局部能力极致化”成功破局。 |
| 代码辅助工具 | Claude Code | 表现当前地表最强的非图形化 AI 代码编写与维护环境。 | 证明了在大模型同质化严重的今天,深耕特定的垂类需求(Coding)依旧能保持不可替代的竞争力。国内平替可用智谱 API 嫁接。 |
| 全尺寸开源模型 | 通义千问 (Qwen) | 提供从极小端侧覆盖到极大型企业级算力的全套模型家族。 | 目前国内最好、生态最完整的开源基座,是开发者进行科研魔改和本地部署的首选。 |
| 理科/推理大模型 | DeepSeek / OpenAI o1 | 强化学习思维链大模型,专攻数学、推理写代码等形式逻辑极强的任务。 | 代表了大模型未来的下一个突破口:从“基于统计概率接字”转向“基于规则强化学习推导(System 2)”。 |
| 无审查智能体 | Grok (xAI) | 避开常规 AI 极强“抱歉我不能回答”安全守则的问答模型。 | 从侧面佐证了大模型在被强行“价值对齐”后性能受损的理论,满足特定研究/猎奇场景。 |
