当前位置：首页 > news >正文

从词向量到大模型：NLP 技术演进浅记

news 2026/6/25 23:24:14

斋藤康毅的《深度学习入门》介绍了最基础的深度学习知识：感知机、激活函数、损失函数、误差反向传播、超参数、正则化、CNN、深层网络。这本《深度学习进阶》则是在深层网络基础上继续前行，聚焦于自然语言处理领域，重点围绕两大核心内容展开：(1)词的分布式表示（即 embedding）——用一组浮点数向量代表一个词的含义；(2)序列生成。从词的分布式表示到序列生成，再到现代大模型架构，可清晰看到一条完整的技术演进脉络。

1. 书内内容

1.1 同义词

作为词义表达的基础方式，其概念早于现代 NLP，20 世纪 50 年代随着自然语言处理领域萌芽开始，最初通过同义词互释的方式表达词义，为后续词的向量表示奠定基础，核心是通过相似语义关联理解词的含义。

1.2 上下文共现词的概率统计（PPMI）

基于共现矩阵与点互信息（PMI）。正点互信息 PPMI 于 1990 年代在 NLP 中逐步成熟，基于"一个词的含义可由其周围的上下文词决定"这一核心概念，通过统计目标词与上下文词的共现概率，结合 PPMI 处理，得到词的分布式表示，属于传统的词向量构建方法。

1.3 上下文的神经网络学习（word2vec）

2013 年提出的 word2vec，本质是单层隐层的神经网络（分为 CBOW 和 Skip-gram 两种模式），仅包含两个权重矩阵——输入侧权重矩阵（词表大小×嵌入维度）和输出侧权重矩阵（嵌入维度×词表大小）。多个上下文词共享同一输入权重矩阵，其输入经求和/平均后传入隐层，训练完成后，输入侧权重矩阵即为词的 embedding。

1.4 基于神经网络的长序列预测（RNN，循环神经网络）

1980s 年提出，但直到 2010s 才在 NLP 领域大规模应用，技术重心从词的 embedding 学习切换到序列建模与预测。word2vec 虽能实现简单预测，但依赖固定大小的上下文窗口，无法利用上下文之前的历史输入；而 RNN 通过给每个网络单元引入前序序列的 hidden state，将前序序列的信息总结并传递，实现了变长序列的建模。

1.5 RNN 的改进与 LSTM

简单 RNN 处理长序列时极易出现梯度消失 / 爆炸，难以训练。LSTM（长短期记忆网络）于 1997 年提出，但直到 2014 年左右才流行。LSTM 在简单 RNN 基础上新增了三个门控结构——遗忘门、输入门、输出门。所谓门控，是通过 sigmoid 函数计算出 0~1 之间的权重值，cell state（长期记忆）或者 hidden state（短期输出）乘以该权重值。门控也是深度学习中控制信息流动的核心组件。

1.6 Seq2Seq 架构

于 2014 年提出，以 RNN（或 LSTM）为基础，通过堆叠形成 encoder→decoder（编码器→解码器）架构。早期 Seq2Seq 中，encoder 将输入序列编码为一个固定维度的 hidden state，再传递给 decoder，相当于整个输入序列被压缩为单个 hidden state。

1.7 Attention 结构

2014 年提出，用于解决编码器将序列压缩为单个向量导致的信息丢失问题。对 encoder→decoder 架构进行微调优化，使得 encoder 将所有 hidden state 均传递给 decoder 的模式。其核心逻辑是：decoder 每一步的 hidden state，都会与 encoder 所有词的 hidden state 计算内积，得到注意力权重，经 softmax 归一化后，再与 encoder 的 hidden state 做加权求和，得到上下文向量，然后再和 hidden state 结合后做输出。这个 Attention 和后面的 QKV 矩阵计算很像。

本书内容至此结束，结合后续自然语言处理技术的发展，其演进脉络进一步延伸：

2. 书外延伸

2.1 Transformer 结构

2017 年在《Attention is All You Need》论文中提出，基于带有 Attention 组件的 Seq2Seq 架构演进而来，整体仍保留 encoder→decoder 框架，但不再使用 RNN 的循环结构（实现全序列并行计算，而非按位置串行），同时开始加深层数，并且内部核心组件替换为以下关键部分：

•Attention 计算升级为 Multi-Head Self-Attention（多头自注意力）：通过 Q（查询向量）、K（键向量）、V（值向量）三个矩阵计算实现注意力查找，核心逻辑仍是先通过 Q 与 K 的内积计算注意力权重，再通过权重与 V 的加权求和提取信息。与此前 Attention 的核心区别在于：此前是 decoder 向 encoder 获取信息（交叉注意力），而 Self-Attention 是序列内部的词与词之间相互关注，实现序列内部依赖关系的建模。在此基础上，Transformer 引入了 Multi-Head（多头）机制：将 Q、K、V 各自拆分为多个头（head），每个头独立进行注意力计算，最后将所有头的输出拼接（concat）后通过一个线性投影合并。多头的意义在于让模型能同时从不同的表示子空间捕捉信息——例如一个头关注语法关系，另一个头关注语义相似性——从而显著增强模型的表达能力。这也是后续 GQA（分组查询注意力）、MLA（多头潜在注意力）等改进的基础。
•Cross-Attention（交叉注意力）：原始 Transformer 的 Decoder 层实际上包含三个子层：Masked Self-Attention → Cross-Attention → FFN。其中 Self-Attention 负责目标序列内部的建模（带掩码，防止看到未来的词），Cross-Attention 则负责 Decoder 向 Encoder 获取信息——Q 来自 Decoder 的 Self-Attention 输出，K/V 来自 Encoder 最后一层的输出，本质上就是 1.7 中 Attention 结构在 Transformer 中的延续。也就是说，Transformer 的 Decoder 同时包含了 Self-Attention（序列内部关注）和 Cross-Attention（跨序列关注）两种注意力机制。后续演进到 Decoder-only 架构后，由于去掉了 Encoder，Cross-Attention 随之消失，仅保留 Self-Attention。
•FFN（前馈神经网络）计算：在输出之前进行两次矩阵投影，先通过"上投影"（up-projection）将特征维度提升，再通过"下投影"（down-projection）将维度还原，中间加入非线性激活函数，增强模型的表达能力。

2.2 位置编码（Positional Encoding）

与 Transformer 同时于 2017 年提出，为适配 Transformer 的并行计算特性而引入。由于 Transformer 抛弃了 RNN 的顺序输入模式，采用所有词同时输入的并行方式，无法天然捕捉语序信息，因此需要额外为每个词添加"位置标签"（位置编码），让模型能够分辨词的顺序。其中固定正余弦编码于 2017 年提出，主流的 RoPE（旋转位置编码）于 2021 年提出，大幅提升了模型对长文本的处理能力和建模精度。

2.3 归一化（Normalization）位置优化

Post-Norm 随 2017 年 Transformer 提出；Pre-Norm 思想更早，在 Transformer 架构中于 2019–2020 年逐步流行。为解决极深网络的训练不稳定性问题，对归一化的位置进行了调整，从早期的 Post-Norm（先完成层计算，再进行归一化），演进到如今主流的 Pre-Norm（先进行归一化，再执行层计算），这种调整让残差不受 Norm 的影响，有效缓解了深层网络的梯度消失问题，保证了深层网络（尤其是万亿参数级模型）训练的稳定性，是大模型能够落地的重要基础。

查看全文

http://www.jsqmd.com/news/1077771/