当前位置：首页 > news >正文

大模型的探索与实践-课程笔记（十一）：大模型发展史与全球厂商业态全景

news 2026/4/27 0:42:37

第一部分：从 NLP 到 Transformer 的底层架构演进

早期的自然语言处理（NLP）主要依赖特征提取，大模型的基石是 Google 提出的架构革命。

1. Transformer 与注意力机制 (2017年)

起源：Google 2017年发表神作《Attention is all you need》。
核心思想：打破了传统的序列结构，将原本作为附属组件的注意力机制 (Attention Mechanism)提拔为整个网络的核心。
双结构：包含Encoder（编码器）：负责将文字转化为特征（Embedding）；和Decoder（解码器）：负责将特征转化为下文输出。

2. Encoder 路线代表：BERT (2018年)

出品：Google。
特性：仅使用 Encoder 结构。它是一个“偏科”于提取特征的模型，极其擅长非生成式任务（如阅读理解、情感分类）。
局限：不能直接输出答案，通常需要在其提取的特征（Feature）后面再外接一个简单的神经网络来完成下游任务。

3. Decoder 路线代表：GPT (2018年)

出品：OpenAI。
特性：仅使用 Decoder 结构。它主打“生成（Generative）”，即一个字一个字往外蹦。
早期劣势：在 GPT-1 和 GPT-2 时代，其综合表现被 BERT “按在地上打”。当时业界普遍认为 Decoder 路线是落后产能。

第二部分：Scaling Law 与大模型时代的真正降临

OpenAI 在逆境中坚守 Decoder 路线，并发现了一个颠覆传统机器学习认识的定律。

1. 核心理论：Scaling Law (约2020年)

传统认知：模型参数越大，越容易导致过拟合（Overfitting），从而让效果变差。
Scaling Law 结论：打破常规！在有限的算力资源下，增加“模型参数量”比单纯增加“数据集大小”带来的收益更高。模型越大，效果就是越好。
意义：这句话直接定义了“大”模型时代。各大厂商不再纠结于微调架构连接方式，而是开始大力堆叠参数量（砸钱上显卡）。

2. 涌现能力的诞生：GPT-3 到 ChatGPT

GPT-3 (2020年)：参数量比 GPT-2 暴增约100倍。随着参数量跨过阈值，模型“涌现”出了In-Context Learning (上下文学习)能力。此时，GPT 与 BERT 已经平分秋色（生成式用 GPT，理解式用 BERT）。
ChatGPT (2022年底)：基于 GPT-3.5 打造。极大优化了对话体验，首次将大模型推向全民商用，拉开了疯狂的全球百模大战。

第三部分：国内大模型厂商业态与演进

1. 早期拓荒与“大模型六小虎” (2023年)

百度 (文心一言)：国内首个发布的大模型，技术起步极早，与 ChatGPT 同期训练。但因早期采用了“落后的付费会员制策略”，被后来免费竞品抢占了极大的民间市场。
智谱 AI (ChatGLM)：清华系。早期极其偏重To-G（政府）和 To-B 业务，To-C 网页端体验较差。但近期凭借极其便宜的 API 价格和极佳的AI Coding (代码生成) 能力，再度爆火。
月之暗面 (Kimi)：清华系。突围杀手锏是颠覆性的“长文本支持”。在众厂商普遍只支持 20K 上下文时，Kimi 率先支持到 200K，彻底引爆了“AI 读长篇论文”的市场需求。

2. 当前国内绝对第一梯队 (大厂主导)

在大模型极度烧钱的当下，局势最终过渡到了巨头手中：

通义千问 (阿里)：开源生态第一与 Pre-training 极佳。模型参数规格最全（0.5B 到大规格均有），部署适配性最强。
豆包 (字节跳动)：市占率第一与多模态极强。背靠巨大流量入口，语音/图像等多模态插件体验当前业界最佳。
DeepSeek (幻方)：基建 (Infra) 与数学推理 (Reasoning) 无敌。非传统互联网大厂出身，以较低的开发成本做出了极强的理科对标能力（直接对标 OpenAI 的 o1 推理路径）。
腾讯 (潜力股)：虽然当前模型被戏称为“套皮”，但拥有全网最恐怖的私域数据池。数据是大模型的核心壁垒，只要给足时间，后期发力不可估量。

第四部分：海外大模型厂商业态与演进

OpenAI (GPT系列)：行业风向标。GPT-4 主打多模态，最新发布的 o1 系列主导高深度逻辑推理 (Reasoning)。
Google (Gemini)：拥有极强的财力与极高的数据质量壁垒。Gemini 1.5 Pro 在图片推理上下文连贯性、以及辅助研究应用（深研功能/NotebookLM）上处于断崖式领先。
Anthropic (Claude)：全球 AI Coding 第一。创始人原属 OpenAI（更早有百度背景）。对齐与合规极其严格（严封国内节点），其推出的 Claude Code 在非图形化编程插件领域极佳。
Meta (Llama)：全球开源界的王者（尽管 v4 版本传闻搁浅，但 v2/v3 极大地推动了全球开源大模型的发展）。
xAI (Grok)：马斯克旗下。主打“无审查 (弱安全对齐)”，基本问什么答什么，适合反抗被过度和谐的输出场景。

AI 工具与模型专项梳理

工具分类	工具/模型名称	核心功能与应用领域	亮点/启发
开源架构祖师	Transformer	奠定当前大语言模型基石的基础架构，利用注意力机制进行编解码。	一篇《Attention is all you need》启发了后续所有 LLM 战局，证明了注意力机制的通用性。
理论法则	Scaling Law	揭示了算力、参数量与效果边界的对撞法则。	打破了做小而美模型的执念，通过数学直觉指明了“大力出奇迹（扩参数优于纯堆数据）”的大厂发展路径。
长文本模型代表	Kimi (月之暗面)	支持极长上下文（200K级别）的文本阅读与分析大模型。	在大模型商用初期，精准切中了科研人群“超长PDF/研报”阅读的痛点，靠“局部能力极致化”成功破局。
代码辅助工具	Claude Code	表现当前地表最强的非图形化 AI 代码编写与维护环境。	证明了在大模型同质化严重的今天，深耕特定的垂类需求（Coding）依旧能保持不可替代的竞争力。国内平替可用智谱 API 嫁接。
全尺寸开源模型	通义千问 (Qwen)	提供从极小端侧覆盖到极大型企业级算力的全套模型家族。	目前国内最好、生态最完整的开源基座，是开发者进行科研魔改和本地部署的首选。
理科/推理大模型	DeepSeek / OpenAI o1	强化学习思维链大模型，专攻数学、推理写代码等形式逻辑极强的任务。	代表了大模型未来的下一个突破口：从“基于统计概率接字”转向“基于规则强化学习推导（System 2）”。
无审查智能体	Grok (xAI)	避开常规 AI 极强“抱歉我不能回答”安全守则的问答模型。	从侧面佐证了大模型在被强行“价值对齐”后性能受损的理论，满足特定研究/猎奇场景。

http://www.jsqmd.com/news/705928/

相关文章：

让经典游戏《植物大战僵尸》在现代宽屏上重生：PvZWidescreen模组深度解析

2026年4月城东镇涂料品牌综合**：如何精准选择可靠供应商？ - 2026年企业推荐榜

Python在TVA算法架构优化中的创新应用（八）

肝了三天三夜！最详尽的漏洞扫描工具实战笔记

AAEON PICO-V2K4：全球最小Ryzen V2000单板计算机解析

2026最新亲测3款自动生成会议纪要免费神器，10分钟出稿好用到哭！

Visual C++运行库终极解决方案：一站式解决所有Windows应用程序依赖问题

2026年Hermes Agent/OpenClaw怎么部署？保姆级教程分享

阿里云服务器利用宝塔搭建个人博客网站

Python在TVA算法架构优化中的创新应用（九）

RAPID-LLM：大模型分布式训练性能优化实践

2026年近期河北省护理专业择校指南：聚焦实力与升学 - 2026年企业推荐榜

2026年Hermes Agent/OpenClaw如何部署？喂饭级教程

TorchTraceAP：PyTorch视觉模型性能优化新方案

告别“唯大厂论”：全球财富 500 强实体企业 IT 核心岗位的隐形红利

不花一分钱，10分钟搞定，2026销售录音总结怎么写每月省18小时多拿18成单率

远程容器开发环境安全加固指南（含CVE-2023-XXXX漏洞规避方案与RBAC最小权限实践）

RAG 为什么一做多跳检索就开始证据链断裂：从 Query Decomposition 到 Path Reranking 的工程实战

AI Agent Harness Engineering 在软件开发中的应用：自动写代码、Debug 与测试的全流程闭环

AXI总线协议与ARM处理器集成架构详解

4月27日成都地区H型钢(包钢、安泰、晋南，型号 HW、HM、‌HN、HT‌‌)现货批发 - 四川盛世钢联营销中心

高效率的粉碎者：HPH高压均质机构造全拆解

MCP AI推理配置紧急升级通知：CVE-2024-MCP-08已曝，未配置memory_limit_policy的实例存在RCE风险

Spring AI实战指南：构建企业级AI应用的核心架构与最佳实践

Cherry MX键帽3D模型库：解决个性化键盘制造的标准化方案

Libre Computer AML-S905X-CC-V2开发板全面解析与应用指南

2026年Hermes Agent/OpenClaw怎么部署？一键部署指南

Python在TVA算法架构优化中的创新应用（十）

2026年4月更新：河北省口腔修复工艺专业择校指南，聚焦石家庄天使护校硬核实力 - 2026年企业推荐榜