当前位置: 首页 > news >正文

大模型的探索与实践-课程笔记(十一):大模型发展史与全球厂商业态全景

第一部分:从 NLP 到 Transformer 的底层架构演进

早期的自然语言处理(NLP)主要依赖特征提取,大模型的基石是 Google 提出的架构革命。

1. Transformer 与注意力机制 (2017年)

  • 起源:Google 2017年发表神作《Attention is all you need》。
  • 核心思想:打破了传统的序列结构,将原本作为附属组件的注意力机制 (Attention Mechanism)提拔为整个网络的核心。
  • 双结构:包含Encoder(编码器):负责将文字转化为特征(Embedding);和Decoder(解码器):负责将特征转化为下文输出。

2. Encoder 路线代表:BERT (2018年)

  • 出品:Google。
  • 特性:仅使用 Encoder 结构。它是一个“偏科”于提取特征的模型,极其擅长非生成式任务(如阅读理解、情感分类)。
  • 局限:不能直接输出答案,通常需要在其提取的特征(Feature)后面再外接一个简单的神经网络来完成下游任务。

3. Decoder 路线代表:GPT (2018年)

  • 出品:OpenAI。
  • 特性:仅使用 Decoder 结构。它主打“生成(Generative)”,即一个字一个字往外蹦。
  • 早期劣势:在 GPT-1 和 GPT-2 时代,其综合表现被 BERT “按在地上打”。当时业界普遍认为 Decoder 路线是落后产能。

第二部分:Scaling Law 与大模型时代的真正降临

OpenAI 在逆境中坚守 Decoder 路线,并发现了一个颠覆传统机器学习认识的定律。

1. 核心理论:Scaling Law (约2020年)

  • 传统认知:模型参数越大,越容易导致过拟合(Overfitting),从而让效果变差。
  • Scaling Law 结论:打破常规!在有限的算力资源下,增加“模型参数量”比单纯增加“数据集大小”带来的收益更高。模型越大,效果就是越好。
  • 意义:这句话直接定义了“大”模型时代。各大厂商不再纠结于微调架构连接方式,而是开始大力堆叠参数量(砸钱上显卡)。

2. 涌现能力的诞生:GPT-3 到 ChatGPT

  • GPT-3 (2020年):参数量比 GPT-2 暴增约100倍。随着参数量跨过阈值,模型“涌现”出了In-Context Learning (上下文学习)能力。此时,GPT 与 BERT 已经平分秋色(生成式用 GPT,理解式用 BERT)。
  • ChatGPT (2022年底):基于 GPT-3.5 打造。极大优化了对话体验,首次将大模型推向全民商用,拉开了疯狂的全球百模大战。

第三部分:国内大模型厂商业态与演进

1. 早期拓荒与“大模型六小虎” (2023年)

  • 百度 (文心一言):国内首个发布的大模型,技术起步极早,与 ChatGPT 同期训练。但因早期采用了“落后的付费会员制策略”,被后来免费竞品抢占了极大的民间市场。
  • 智谱 AI (ChatGLM):清华系。早期极其偏重To-G(政府)和 To-B 业务,To-C 网页端体验较差。但近期凭借极其便宜的 API 价格和极佳的AI Coding (代码生成) 能力,再度爆火。
  • 月之暗面 (Kimi):清华系。突围杀手锏是颠覆性的“长文本支持”。在众厂商普遍只支持 20K 上下文时,Kimi 率先支持到 200K,彻底引爆了“AI 读长篇论文”的市场需求。

2. 当前国内绝对第一梯队 (大厂主导)

在大模型极度烧钱的当下,局势最终过渡到了巨头手中:

  • 通义千问 (阿里)开源生态第一与 Pre-training 极佳。模型参数规格最全(0.5B 到大规格均有),部署适配性最强。
  • 豆包 (字节跳动)市占率第一与多模态极强。背靠巨大流量入口,语音/图像等多模态插件体验当前业界最佳。
  • DeepSeek (幻方)基建 (Infra) 与数学推理 (Reasoning) 无敌。非传统互联网大厂出身,以较低的开发成本做出了极强的理科对标能力(直接对标 OpenAI 的 o1 推理路径)。
  • 腾讯 (潜力股):虽然当前模型被戏称为“套皮”,但拥有全网最恐怖的私域数据池。数据是大模型的核心壁垒,只要给足时间,后期发力不可估量。

第四部分:海外大模型厂商业态与演进

  • OpenAI (GPT系列):行业风向标。GPT-4 主打多模态,最新发布的 o1 系列主导高深度逻辑推理 (Reasoning)。
  • Google (Gemini):拥有极强的财力与极高的数据质量壁垒。Gemini 1.5 Pro 在图片推理上下文连贯性、以及辅助研究应用(深研功能/NotebookLM)上处于断崖式领先。
  • Anthropic (Claude)全球 AI Coding 第一。创始人原属 OpenAI(更早有百度背景)。对齐与合规极其严格(严封国内节点),其推出的 Claude Code 在非图形化编程插件领域极佳。
  • Meta (Llama)全球开源界的王者(尽管 v4 版本传闻搁浅,但 v2/v3 极大地推动了全球开源大模型的发展)。
  • xAI (Grok):马斯克旗下。主打“无审查 (弱安全对齐)”,基本问什么答什么,适合反抗被过度和谐的输出场景。

AI 工具与模型专项梳理

工具分类工具/模型名称核心功能与应用领域亮点/启发
开源架构祖师Transformer奠定当前大语言模型基石的基础架构,利用注意力机制进行编解码。一篇《Attention is all you need》启发了后续所有 LLM 战局,证明了注意力机制的通用性。
理论法则Scaling Law揭示了算力、参数量与效果边界的对撞法则。打破了做小而美模型的执念,通过数学直觉指明了“大力出奇迹(扩参数优于纯堆数据)”的大厂发展路径。
长文本模型代表Kimi (月之暗面)支持极长上下文(200K级别)的文本阅读与分析大模型。在大模型商用初期,精准切中了科研人群“超长PDF/研报”阅读的痛点,靠“局部能力极致化”成功破局。
代码辅助工具Claude Code表现当前地表最强的非图形化 AI 代码编写与维护环境。证明了在大模型同质化严重的今天,深耕特定的垂类需求(Coding)依旧能保持不可替代的竞争力。国内平替可用智谱 API 嫁接。
全尺寸开源模型通义千问 (Qwen)提供从极小端侧覆盖到极大型企业级算力的全套模型家族。目前国内最好、生态最完整的开源基座,是开发者进行科研魔改和本地部署的首选。
理科/推理大模型DeepSeek / OpenAI o1强化学习思维链大模型,专攻数学、推理写代码等形式逻辑极强的任务。代表了大模型未来的下一个突破口:从“基于统计概率接字”转向“基于规则强化学习推导(System 2)”。
无审查智能体Grok (xAI)避开常规 AI 极强“抱歉我不能回答”安全守则的问答模型。从侧面佐证了大模型在被强行“价值对齐”后性能受损的理论,满足特定研究/猎奇场景。
http://www.jsqmd.com/news/705928/

相关文章:

  • 让经典游戏《植物大战僵尸》在现代宽屏上重生:PvZWidescreen模组深度解析
  • 2026年4月城东镇涂料品牌综合**:如何精准选择可靠供应商? - 2026年企业推荐榜
  • Python在TVA算法架构优化中的创新应用(八)
  • 肝了三天三夜!最详尽的漏洞扫描工具实战笔记
  • AAEON PICO-V2K4:全球最小Ryzen V2000单板计算机解析
  • 2026最新亲测3款自动生成会议纪要免费神器,10分钟出稿好用到哭!
  • Visual C++运行库终极解决方案:一站式解决所有Windows应用程序依赖问题
  • 2026年Hermes Agent/OpenClaw怎么部署?保姆级教程分享
  • 阿里云服务器利用宝塔搭建个人博客网站
  • Python在TVA算法架构优化中的创新应用(九)
  • RAPID-LLM:大模型分布式训练性能优化实践
  • python signal
  • 2026年近期河北省护理专业择校指南:聚焦实力与升学 - 2026年企业推荐榜
  • 2026年Hermes Agent/OpenClaw如何部署?喂饭级教程
  • TorchTraceAP:PyTorch视觉模型性能优化新方案
  • 告别“唯大厂论”:全球财富 500 强实体企业 IT 核心岗位的隐形红利
  • 不花一分钱,10分钟搞定,2026销售录音总结怎么写每月省18小时多拿18成单率
  • 远程容器开发环境安全加固指南(含CVE-2023-XXXX漏洞规避方案与RBAC最小权限实践)
  • RAG 为什么一做多跳检索就开始证据链断裂:从 Query Decomposition 到 Path Reranking 的工程实战
  • AI Agent Harness Engineering 在软件开发中的应用:自动写代码、Debug 与测试的全流程闭环
  • AXI总线协议与ARM处理器集成架构详解
  • 4月27日成都地区H型钢(包钢、安泰、晋南,型号 HW、HM、‌HN、HT‌‌)现货批发 - 四川盛世钢联营销中心
  • 高效率的粉碎者:HPH高压均质机构造全拆解
  • MCP AI推理配置紧急升级通知:CVE-2024-MCP-08已曝,未配置memory_limit_policy的实例存在RCE风险
  • Spring AI实战指南:构建企业级AI应用的核心架构与最佳实践
  • Cherry MX键帽3D模型库:解决个性化键盘制造的标准化方案
  • Libre Computer AML-S905X-CC-V2开发板全面解析与应用指南
  • 2026年Hermes Agent/OpenClaw怎么部署?一键部署指南
  • Python在TVA算法架构优化中的创新应用(十)
  • 2026年4月更新:河北省口腔修复工艺专业择校指南,聚焦石家庄天使护校硬核实力 - 2026年企业推荐榜