当前位置: 首页 > news >正文

1.1 从语言模型到LLM:万字详解大模型演进史

从语言模型到LLM:万字详解大模型演进史

自监督学习如何改变AI?从n-gram到Transformer,读懂大模型的前世今生。本节内容基于《AI工程》第1章「AI工程的兴起」1.1节,对应书中「From Language Models to Large Language Models」「From Large Language Models to Foundation Models」「From Foundation Models to AI Engineering」三个核心小节。

一、开篇:为什么必须理解演进史?

Chip Huyen 在《AI工程》开篇即指出:如果用一词形容2020年后的AI,那便是「规模」(Scale)。ChatGPT、Gemini、Midjourney 背后的模型规模已大到消耗全球可观比例电力,我们甚至面临公开互联网训练数据耗尽的风险。这一观察贯穿全书,提醒我们:AI 工程的前提是理解「规模」带来的机遇与约束。

这种规模扩张带来两个重要后果:其一,AI 模型能力跃升,催生更多应用;其二,训练大语言模型所需的数据、算力与人才,仅有少数组织能负担,由此催生了**模型即服务(Model as a Service)**范式——大厂将模型作为服务对外提供,任何人都能以更低的门槛构建 AI 应用。书中强调,这使「AI 工程」成为增长最快的工程领域之一:对 AI 应用的需求在增长,而入门的门槛在降低。

然而,很多开发者一上来就调 API、写 Prompt,却说不清语言模型和 LLM 的本质区别。这种理解缺失会导致:选型盲目、参数乱调、遇到幻觉不知根源。本节基于《AI工程》第一章「1.1 AI工程的兴起」的完整脉络,对应书中「From Language Models to Large Language Models」「From Large Language Models to Foundation Models」「From Foundation Models to AI Engineering」三个核心小节,带你从源头梳理语言模型→大语言模型→基础模型→AI工程的完整演进,建立系统认知。


二、语言模型的诞生:从统计到神经网络

2.1 统计语言模型时代

最早的「语言模型」本质是概率预测:给定前文,预测下一个词。其数学形式可表示为P(wt∣w1:t−1)P(w_t | w_{1:t-1})P(wtw1:t1),即根据历史词序列预测当前词的概率分布。

# n-gram 统计语言模型示意(简化版,可直接运行)fromcollectionsimportCounter,defaultdictdefbuild_ngram_model(corpus,n=3):"""构建 n-gram 统计模型:基于(n-1)个词的上下文预测第n个词"""ngrams=defaultdict(Counter)forsentenceincorpus:words=sentence.split()foriinrange(len(words)-n+1):context=tuple(words[i:i+n-1])next_word=words[i+n-1]ngrams[context][next_word]+=1returnngramsdefpredict_next(model,context):"""预测下一个词:取上下文中最常出现的后继词"""context=tuple(context.split()[-2:])# 取最后2个词作为上下文ifcontextinmodel:returnmodel[context].most_common(1)[0][0]returnNone# 示例corpus=["我 喜欢 编程","我 喜欢 学习","你 喜欢 什么"]model=build_ngram_model(corpus,n=3)print
http://www.jsqmd.com/news/377407/

相关文章:

  • 洗碗粉(洗碗机清洁剂)市场细分观察:安全、效能与场景驱动的品牌分化
  • 2026选新型高清印刷机定制厂家,这份排行分析别错过,市场高清印刷机怎么选购精选实力品牌 - 品牌推荐师
  • 10.3 实战 多Agent协作完成一个复杂项目
  • 1.2 基础模型究竟是什么?一文搞懂AI工程核心概念
  • 【信息科学与工程学】【解决方案体系】光刻机
  • 我论文写得太像人了,结果系统说:你不是人??
  • $k$ 边最短路-矩乘
  • Linux随记
  • 你认真写下的每一个字,都值得被相信 ✨
  • 大润发购物卡快速变现攻略 - 团团收购物卡回收
  • SharePoint Online 网站配置时区
  • 河北粘钉一体机厂家2026年推荐榜,品质与口碑并存,河北粘钉一体机公司哪个好解决方案与实力解析 - 品牌推荐师
  • 大模型“涌现能力”的来源解析
  • 开题总被退回?试试百考通AI——专业、规范、0代写风险!
  • 2026年大型集团资产管理系统软件哪家好?资产管理系统平台推荐 - 品牌2025
  • 靶心转移:开发者成网络攻击首要突破口,供应链与AI暗战重构安全格局
  • 拒绝模板化!百考通AI生成个性化开题报告,贴合你的研究方向
  • 深入解析:TDengine C# 语言连接器入门指南
  • 抗衰产品哪款更靠谱?2026年高纯度NMN抗衰推荐,精准改善NAD+水平 - 资讯焦点
  • 3分钟生成高质量开题报告?百考通AI让选题不再卡壳!
  • js数组倒序函数
  • AI赋能·全域穿透:高级开源情报(OSINT)追踪技术全景与未来演进
  • 【无人机】基于实时3D蒙特卡洛梯度搜索的自主无人机载空气过滤系统附matlab代码
  • NMN抗衰产品如何选?2026权威NAD补充剂质量测评,延缓衰老不迷路 - 资讯焦点
  • Gemini AI武器化失控:黑客滥用生成恶意代码,无文件攻击席卷全球APT战场
  • 从选题到框架全搞定!百考通AI开题报告,助你轻松过审第一步
  • 百考通:AI驱动数据分析,让专业洞察触手可及
  • 以非常6+1体系为支撑 融入AI智能名片商城小程序 提升组织建设效能
  • 深度解析双大马士革工艺:芯片互连的核心基石
  • 百考通:AI智能生成实践报告,让实习成果完美呈现