当前位置: 首页 > news >正文

神经网络语言模型(A neural probabilistic language model)

一、导读

随着大语言模型技术的不断发展,其所引领的人工智能浪潮已然席卷全球。然而,当下最为火热的大语言模型却也并不是一蹴而就,它的发展过程也非常漫长和曲折。《A neural probabilistic language model》是由加拿大计算机科学家约书亚·本吉奥于2003年发表的一篇论文,该论文开创性的提出了使用神经网络和词向量的方式来建模自然语言序列,奠定了当今语言模型的基石。

二、相关方法

在这篇论文之前,研究者对于语言序列的建模大多采用的是统计语言模型。这是一种基于概率的方法,即通过某一个位置的词之前一个或几个词的信息来预测该位置的词,使用条件概率来表达。即:

这在实际建模过程中会遇到维数灾难的问题,当词表非常大的时候,并且序列上下文很长的时候,该方法的计算复杂度就会非常高。为了解决这一问题,研究者又提出了n-gram的方法,即想要预测这个位置的词,只需要根据其上文n个词的信息即可。这样一来,虽然大大化简了计算复杂度,但是丢失了很多的上下文信息,并且使用该方法训练出的模型泛化能力会比较差,例如它无法认识到“猫在客厅里面跑”和“狗在卧室里面走”这两句话在自然语义上面是有一致性的。

三、论文方法

约书亚团队提出了使用神经网络和词向量的方式来建模语言序列。具体而言,把每个词w映射为m维度的向量,如果两个词在自然语义上面是相近的,那么其对应词向量在空间中所处的位置应该也是同样接近的。

首先给定长度为n的上下文窗口,将每个词的词向量拼接成矩阵作为神经网络的输入,即:

对输入做单隐藏层神经网络计算,最终使用tanh激活函数激活:

再经过一个全连接层后,最终输出有softmax归一化为预测下一个词概率:

此外,由于论文的实验使用了32个CPU集群,所以在具体计算方面实施了分布式并行计算。首先将输出层矩阵U按行分块,每个CPU计算V/32个词的概率(∣V∣=17,964 ⇒ 每个节点约561个词);然后各节点计算本地梯度,通过AllReduce操作全局聚合。还有一些稳定数值的具体操作,如平移等。

四、实验结果

在Brown Corpus和AP News数据集上面对比3-gram和5-gram方法,模型困惑度显著降低。具体而言:

(1)Brown Corpus:NLP单独困惑度89.7,相比n-gram的118显著降低(24%)

(2)AP News:NLP+trigram插值困惑度148,纯trigram为161(8%提升)

五、总结

约书亚的这篇论文首次使用多层感知机(MLP)构建语言模型,通过学习词的分布式表示(即词嵌入)来预测词序列的概率;首次提出“词嵌入”的概念,该模型将每个词映射为低维稠密向量,使语义相似的词在向量空间中距离接近,从而显著提升模型对未见词组合的泛化能力。这篇文章是现代NLP技术的奠基之作,是理解当前大语言模型(LLM)技术演进的关键。

http://www.jsqmd.com/news/461460/

相关文章:

  • 安装前准备:
  • 第二十节:MCAL GPT理论
  • 2025年最值得收藏的图像处理工具:洋芋田图像工具箱,开源免费无广告
  • 阶梯碳价计算函数
  • Master the Object-Oriented Mindset in Ruby and Rails
  • 全账号聚合,告别切换内耗
  • 初识 OpenClaw:它是什么?它能干什么?
  • 盒马鲜生礼品卡变现:你需要了解的三种实用方法 - 团团收购物卡回收
  • 1688采购卡点破解指南:3步锁定低价性价比货源
  • 2026年最佳EOR名义雇主模式品牌排行榜,海外用工新风尚
  • 403.2亿元!数控加工CAM市场规模刷新纪录,高端制造核心支撑力凸显
  • OpenClaw 多 Agent 协作研发:5 个 AI 员工,从需求到代码自动流转
  • AI 数学的秘密花园:16.语义泡泡(概念不是点,而是会重叠的泡泡区域)
  • AI 数学的秘密花园:17.语义流形(多层折纸,语言被折成好玩形状)
  • 什么是大端和小端字节序?如果你的PHP程序与一个C写的TCP服务通信,传输二进制数据时需要考虑这个问题吗?
  • 小程序——路由API
  • 解决vscode里面Gemini Code Assist插件无法使用的问题!!!
  • 【pfg】
  • ubuntu mujoco安装好以后如何通过python那个它
  • 20260310_170257_渗透测试人员守则:基础知识
  • OpenClaw 从 0 到 1:本地部署 + 飞书机器人(避坑实战)
  • python2自动打卡脚本
  • Minio分布式集群+nginx+keepalived部署
  • 前端八股文面经大全:字节跳动前端二面部分(2026-01-13)·面经深度解析
  • 为什么PHP的浮点数运算(如0.1+0.2)结果不是精确的0.3?IEEE浮点数标准是如何表示小数的?
  • OpenClaw 在 Windows 系统下的完整安装部署指南
  • 2026年3月东莞试验箱厂家靠谱推荐:恒温恒湿、交变湿热热、两箱式冷热冲击、三箱式冷热冲击、盐雾试验箱,艾博仪器解锁东莞试验箱优质之选 - 海棠依旧大
  • 2026实测|8款封神PPT工具,AI博主私藏,职场/学生/技术党直接抄作业
  • GESP / CSP-J入门讲解:题目的 题意分析 + C++题解
  • 2026软考资料,看这一篇就够了