当前位置: 首页 > news >正文

【LLM基础教程】统计语言模型N-gram

​ 在深度学习语言模型(LSTM、Transformer)出现之前,统计语言模型(Statistical Language Model, SLM)长期占据 NLP 主流地位。它们通过对大量语料进行统计,来估计词序列的概率,是最早被广泛应用于机器翻译、语音识别等系统的语言模型形式。

​ 其中最经典、最重要的统计语言模型就是n-gram 模型

1. n-gram 的基本思想

​ 根据概率论中的链式法则,长度为TTT的词序列x1,⋯ ,xTx_1, \cdots, x_Tx1,,xT的联合概率可以写成:
p(x1,⋯ ,xT)=∏t=1TP(xt∣x1:t−1) p(x_1, \cdots, x_T)=\prod_{t=1}^{T} P(x_t \mid x_{1:t-1})p(x1,,xT)=t=1TP(xtx1:t1)
​ 也就是说,如果我们能够正确建模每一个词在给定前文的情况下出现的概率,就能计算整句的概率。然而,这里会遇到一个致命问题:条件依赖长度太长!xtx_txt要依赖前面所有词,但真实语料根本不可能覆盖如此巨大的组合空间。

​ 于是,n-gram 模型引入了简化假设:马尔可夫假设

(1) 马尔可夫假设

  • 一个词的出现只依赖它前面的n−1n-1n1个词,而不是整个历史。

  • 基于这一假设,我们将复杂的条件概率近似为:
    P(xt∣x1:t−1)≈P(xt∣xt−n+1:t−1) P(x_{t}|x_{1:t-1}) \approx P(x_t|x_{t-n+1:t-1})P(xtx1:t1)P(xtxtn+1:t1)
    这样,原本需要完整上下文的模型就简化成了只依赖固定长度窗口的模型,也就是n-gram 模型

(2) n-gram 的概率估计

Maximum Likelihood Estimation

​ n-gram 的核心是计算:
P(xt∣xt−n+1,⋯ ,xt−1) P(x_t|x_{t-n+1}, \cdots, x_{t-1})P(xtxtn+1,,xt1)
​ 用最大似然估计(MLE)可以直接通过计数求得:
P(xt∣xt−n+1,⋯ ,xt−1)=Count(xt−n+1,⋯ ,xt−1,xt)Count(xt−n+1,⋯ ,xt−1) P(x_t|x_{t-n+1},\cdots,x_{t-1}) = \frac{\mathcal{Count}(x_{t-n+1}, \cdots, x_{t-1}, x_{t})}{\mathcal{Count}(x_{t-n+1}, \cdots, x_{t-1})}P(xtxtn+1,,xt1)=Count(xtn+1,,xt1)Count(xtn+1,,xt1,xt)
nnn的阶数越高,对应的依赖关系就越长。

  • 1-gram(Unigram)

    Unigram 假设所有词独立出现,因此整句概率为:
    P(x1,⋯ ,xt)=∏i=1tP(xi) P(x_1, \cdots, x_t) = \prod_{i=1}^t P(x_i)P(x1,,xt)=i=1tP(xi)
    此模型忽略了所有上下文信息,效果通常最差。

  • 2-gram(Bigram)

    基于一阶马尔可夫假设

    Bigram 是最常用的基础 n-gram 模型,它假设每个词只依赖前一个词:
    P(x1,⋯ ,xt)=P(x1)∏i=2tP(xi∣xi−1) P(x_1, \cdots, x_t) = P(x_1)\prod_{i=2}^t P(x_i|x_{i-1})P(x1,,xt)=P(x1)i=2tP(xixi1<

http://www.jsqmd.com/news/99929/

相关文章:

  • Nigx配置
  • 【赵渝强老师】OceanBase租户的资源管理
  • gpt-oss-20b RESTful API设计与集成指南
  • 教育场景适用吗?LobeChat作为教学辅助工具的潜力
  • 【玩转全栈】----Django根本设置和介绍
  • 2025/12/16英语打卡
  • GPT-SoVITS音色相似度优化技巧:提升克隆真实感
  • 项目实践11—全球证件智能识别系统(切换为PostgreSQL数据库)
  • PaddlePaddle语音识别套件实践:集成github镜像提升模块加载效率
  • 2025 年纸碗成型设备实力厂家推荐 (12 月更新):纸杯机、制杯机、全伺服纸杯机、纸碗机、杯盖机等全品类制造商盘点 - 品牌2026
  • Java集合操作(List、Set、Map)
  • MiniCPM-V2.5微调中的CUDA依赖问题解决
  • LobeChat能否支持图表生成?数据可视化回答呈现
  • 2025 托福培训机构优选攻略:从选课逻辑到高分案例全解析 - 品牌测评鉴赏家
  • Windows下Python安装失败?换用清华源重试TensorFlow安装
  • DeepSeek-OCR本地部署:CUDA升级与vLLM配置
  • 2025年托福培训机构怎么选?这5家口碑好的机构帮你高效提分 - 品牌测评鉴赏家
  • Qwen3-32B大模型调用与鉴权指南
  • FPGA 和 IC 岗位前景、薪资对比
  • 腾讯混元开源HunyuanVideo-Foley:实现声画合一的AI音效生成
  • 2025年12月电动升降机,剪叉升降机,高空作业升降机公司推荐:升降机械测评与选购指南 - 品牌鉴赏师
  • 2025年十大隐形车衣优质厂家排行榜,隐形车衣厂家测评指南 - myqiye
  • Git安装Windows版本并配置清华镜像用于TensorFlow贡献开发
  • 时序数据库 or 实时数据库?TDengine以双引擎+AI彻底破局
  • HuggingFace镜像网站推荐列表(国内可用)
  • 31、Linux 系统下的声音文件编辑与磁盘存储实用指南
  • FPGA 面试题目汇总含解析,FPGAer 上岸必备!
  • DiskInfo下载官网替代方案:高效获取YOLO资源
  • SQL条件中WHERE 1=1 的功能
  • TensorRT-LLM如何降低云GPU推理成本60%