当前位置: 首页 > news >正文

从词向量到大模型:NLP 技术演进浅记

斋藤康毅的《深度学习入门》介绍了最基础的深度学习知识:感知机、激活函数、损失函数、误差反向传播、超参数、正则化、CNN、深层网络。这本《深度学习进阶》则是在深层网络基础上继续前行,聚焦于自然语言处理领域,重点围绕两大核心内容展开:(1)词的分布式表示(即 embedding)——用一组浮点数向量代表一个词的含义;(2)序列生成。从词的分布式表示到序列生成,再到现代大模型架构,可清晰看到一条完整的技术演进脉络。

1. 书内内容

1.1 同义词

作为词义表达的基础方式,其概念早于现代 NLP,20 世纪 50 年代随着自然语言处理领域萌芽开始,最初通过同义词互释的方式表达词义,为后续词的向量表示奠定基础,核心是通过相似语义关联理解词的含义。

1.2 上下文共现词的概率统计(PPMI)

基于共现矩阵与点互信息(PMI)。正点互信息 PPMI 于 1990 年代在 NLP 中逐步成熟,基于"一个词的含义可由其周围的上下文词决定"这一核心概念,通过统计目标词与上下文词的共现概率,结合 PPMI 处理,得到词的分布式表示,属于传统的词向量构建方法。

1.3 上下文的神经网络学习(word2vec)

2013 年提出的 word2vec,本质是单层隐层的神经网络(分为 CBOW 和 Skip-gram 两种模式),仅包含两个权重矩阵——输入侧权重矩阵(词表大小×嵌入维度)和输出侧权重矩阵(嵌入维度×词表大小)。多个上下文词共享同一输入权重矩阵,其输入经求和/平均后传入隐层,训练完成后,输入侧权重矩阵即为词的 embedding。

1.4 基于神经网络的长序列预测(RNN,循环神经网络)

1980s 年提出,但直到 2010s 才在 NLP 领域大规模应用,技术重心从词的 embedding 学习切换到序列建模与预测。word2vec 虽能实现简单预测,但依赖固定大小的上下文窗口,无法利用上下文之前的历史输入;而 RNN 通过给每个网络单元引入前序序列的 hidden state,将前序序列的信息总结并传递,实现了变长序列的建模。

1.5 RNN 的改进与 LSTM

简单 RNN 处理长序列时极易出现梯度消失 / 爆炸,难以训练。LSTM(长短期记忆网络)于 1997 年提出,但直到 2014 年左右才流行。LSTM 在简单 RNN 基础上新增了三个门控结构——遗忘门、输入门、输出门。所谓门控,是通过 sigmoid 函数计算出 0~1 之间的权重值,cell state(长期记忆)或者 hidden state(短期输出)乘以该权重值。门控也是深度学习中控制信息流动的核心组件。

1.6 Seq2Seq 架构

于 2014 年提出,以 RNN(或 LSTM)为基础,通过堆叠形成 encoder→decoder(编码器→解码器)架构。早期 Seq2Seq 中,encoder 将输入序列编码为一个固定维度的 hidden state,再传递给 decoder,相当于整个输入序列被压缩为单个 hidden state。

1.7 Attention 结构

2014 年提出,用于解决编码器将序列压缩为单个向量导致的信息丢失问题。对 encoder→decoder 架构进行微调优化,使得 encoder 将所有 hidden state 均传递给 decoder 的模式。其核心逻辑是:decoder 每一步的 hidden state,都会与 encoder 所有词的 hidden state 计算内积,得到注意力权重,经 softmax 归一化后,再与 encoder 的 hidden state 做加权求和,得到上下文向量,然后再和 hidden state 结合后做输出。这个 Attention 和后面的 QKV 矩阵计算很像。


本书内容至此结束,结合后续自然语言处理技术的发展,其演进脉络进一步延伸:

2. 书外延伸

2.1 Transformer 结构

2017 年在《Attention is All You Need》论文中提出,基于带有 Attention 组件的 Seq2Seq 架构演进而来,整体仍保留 encoder→decoder 框架,但不再使用 RNN 的循环结构(实现全序列并行计算,而非按位置串行),同时开始加深层数,并且内部核心组件替换为以下关键部分:

  • Attention 计算升级为 Multi-Head Self-Attention(多头自注意力):通过 Q(查询向量)、K(键向量)、V(值向量)三个矩阵计算实现注意力查找,核心逻辑仍是先通过 Q 与 K 的内积计算注意力权重,再通过权重与 V 的加权求和提取信息。与此前 Attention 的核心区别在于:此前是 decoder 向 encoder 获取信息(交叉注意力),而 Self-Attention 是序列内部的词与词之间相互关注,实现序列内部依赖关系的建模。在此基础上,Transformer 引入了 Multi-Head(多头)机制:将 Q、K、V 各自拆分为多个头(head),每个头独立进行注意力计算,最后将所有头的输出拼接(concat)后通过一个线性投影合并。多头的意义在于让模型能同时从不同的表示子空间捕捉信息——例如一个头关注语法关系,另一个头关注语义相似性——从而显著增强模型的表达能力。这也是后续 GQA(分组查询注意力)、MLA(多头潜在注意力)等改进的基础。
  • Cross-Attention(交叉注意力):原始 Transformer 的 Decoder 层实际上包含三个子层:Masked Self-Attention → Cross-Attention → FFN。其中 Self-Attention 负责目标序列内部的建模(带掩码,防止看到未来的词),Cross-Attention 则负责 Decoder 向 Encoder 获取信息——Q 来自 Decoder 的 Self-Attention 输出,K/V 来自 Encoder 最后一层的输出,本质上就是 1.7 中 Attention 结构在 Transformer 中的延续。也就是说,Transformer 的 Decoder 同时包含了 Self-Attention(序列内部关注)和 Cross-Attention(跨序列关注)两种注意力机制。后续演进到 Decoder-only 架构后,由于去掉了 Encoder,Cross-Attention 随之消失,仅保留 Self-Attention。
  • FFN(前馈神经网络)计算:在输出之前进行两次矩阵投影,先通过"上投影"(up-projection)将特征维度提升,再通过"下投影"(down-projection)将维度还原,中间加入非线性激活函数,增强模型的表达能力。

2.2 位置编码(Positional Encoding)

与 Transformer 同时于 2017 年提出,为适配 Transformer 的并行计算特性而引入。由于 Transformer 抛弃了 RNN 的顺序输入模式,采用所有词同时输入的并行方式,无法天然捕捉语序信息,因此需要额外为每个词添加"位置标签"(位置编码),让模型能够分辨词的顺序。其中固定正余弦编码于 2017 年提出,主流的 RoPE(旋转位置编码)于 2021 年提出,大幅提升了模型对长文本的处理能力和建模精度。

2.3 归一化(Normalization)位置优化

Post-Norm 随 2017 年 Transformer 提出;Pre-Norm 思想更早,在 Transformer 架构中于 2019–2020 年逐步流行。为解决极深网络的训练不稳定性问题,对归一化的位置进行了调整,从早期的 Post-Norm(先完成层计算,再进行归一化),演进到如今主流的 Pre-Norm(先进行归一化,再执行层计算),这种调整让残差不受 Norm 的影响,有效缓解了深层网络的梯度消失问题,保证了深层网络(尤其是万亿参数级模型)训练的稳定性,是大模型能够落地的重要基础。

http://www.jsqmd.com/news/1077771/

相关文章:

  • 你的 AI 助手为什么总是 “掉线“?真正的原因不在网络
  • 终极iOS激活锁绕过指南:免费解锁iPhone 15-16的完整解决方案
  • NXP RW61x Wi-Fi CLI实战指南:从网络连接到电源管理
  • 终极Windows系统优化指南:Win11Debloat让你的电脑重获新生
  • 轻松搞定B站缓存视频:m4s-converter让你珍藏的视频重获新生
  • 3分钟解锁Mac NTFS读写:Free-NTFS-for-Mac开源终极方案
  • 全覆盖路径规划技术革命:如何让机器人实现100%无死角覆盖?
  • 2026年AI文献管理工具横向测评:8款主流软件功能对比与客观选型参考
  • 嵌入式开发实战:从DEMOJM评估板到BDM调试工具选型指南
  • SQL注入攻防实战:从手工探测到自动化利用与防御实践
  • 自我介绍 我是代码之神 胡-冰-杰
  • 朵薇 Domyway 品牌深度调研 · 2026
  • 如何免费解锁Microsoft 365完整功能:3步使用Ohook激活工具指南
  • 高灵敏安全触边,消除设备夹手隐患
  • 3步轻松搞定B站缓存视频转换:m4s-converter实用指南
  • 2026年实用降AI率平台:实测AI率从90%降至4%的省心方案
  • PS 柔性实时仿真实战:汽车底盘 ABS 线束与制动油管全套动态校核方案
  • 基座模型切换实战指南:Grok-4推理优化与系统适配
  • AI 生成式设计落地:从提示词到可交付 UI 的工程化链路
  • 如何快速解决B站缓存视频播放问题:m4s转MP4的完整解决方案
  • 终极指南:如何免费解锁Windows多用户远程桌面功能
  • RFID解法:制造业生产设备配件仓精细化管理
  • 深入理解Linux内存保护:mprotect函数源码解析
  • 终极AI视频帧率提升指南:使用Flowframes让视频更流畅的完整教程
  • League Akari:英雄联盟玩家的智能工具箱完整使用指南
  • 【限时更新】IntelliJ IDEA 2024.2 Windows安装适配公告:.NET 8.0 Runtime冲突预警+WSL2集成安装包实测对比
  • 从噪音困扰到静音享受:如何用FanControl为Windows电脑定制专属风扇策略
  • MCP协议入门:AI代理服务编排的轻量级通信标准
  • COB和SMD LED显示屏有什么区别?采购时应该怎么选?
  • Nessus 10.11.0专业版实战指南:部署、配置与漏洞扫描深度解析