当前位置：首页 > news >正文

从RNN到Transformer：为什么相对位置表示是NLP模型理解顺序的关键

news 2026/7/27 19:49:09

从RNN到Transformer：为什么相对位置表示是NLP模型理解顺序的关键

在自然语言处理领域，序列建模的核心挑战之一是如何让模型理解词语之间的顺序关系。想象一下，当我们阅读"猫追老鼠"和"老鼠追猫"这两个句子时，词语完全相同但含义截然相反——这正是顺序信息在语言理解中的决定性作用。传统RNN通过时间步的隐状态传递隐式捕获顺序，而Transformer则彻底改变了这一范式，它摒弃了递归结构，转而依赖自注意力机制来建模全局关系。但这也带来了一个根本性问题：如何在没有显式时序结构的情况下，让模型理解词语的位置关系？

1. 序列建模的演进：从隐式到时序到显式位置编码

1.1 RNN与CNN的时序处理机制

循环神经网络(RNN)通过其递归结构天然地处理序列顺序：

时间步传递：每个时间步的隐藏状态$h_t$依赖于当前输入$x_t$和前一步状态$h_{t-1}$
距离敏感度衰减：随着序列长度增加，早期信息会逐渐稀释（即长期依赖问题）
双向扩展：BiRNN通过前向和后向传递缓解信息丢失，但计算无法并行

卷积神经网络(CNN)则采用局部窗口感知位置：

# 典型的一维卷积操作 conv_layer = nn.Conv1d(in_channels=embed_dim, out_channels=filters, kernel_size=3, padding=1)

提示：3-gram卷积核能捕获相邻词关系，但需要深层堆叠才能建模长距离依赖

1.2 Transformer的绝对位置编码方案

原始Transformer采用正弦/余弦函数生成位置编码： $$ PE_{(pos,2i)} = \sin(pos/10000^{2i/d_{model}}) \ PE_{(pos,2i+1)} = \cos(pos/10000^{2i/d_{model}}) $$ 这种方案存在三个显著局限：

长度外推问题：训练时未见过的序列长度效果下降
相对关系模糊：绝对位置差与语义关联度并非线性对应
跨语言泛化差：不同语言的语序规律需要重新学习位置表示

模型类型	位置处理方式	最大优势	主要缺陷
RNN	隐式时序传递	天然处理变长序列	并行性差
CNN	局部窗口感知	高效捕获局部模式	长距离依赖弱
Transformer	绝对位置编码	全局注意力机制	位置敏感性不足

2. 相对位置表示的理论突破

2.1 自注意力机制的改造路径

相对位置表示的核心思想是将位置信息注入注意力权重计算过程。对比原始自注意力公式： $$ e_{ij} = \frac{(x_iW^Q)(x_jW^K)^T}{\sqrt{d_z}} $$ 改进后的Relation-aware版本： $$ e_{ij} = \frac{(x_iW^Q)(x_jW^K + a_{ij}^K)^T}{\sqrt{d_z}} $$ 其中$a_{ij}^K$表示词$i$与$j$的相对位置嵌入。这种设计带来三个关键改进：

距离感知：通过可学习的$w^K$和$w^V$矩阵编码相对距离
方向敏感：区分"前向"和"后向"关系（如修饰方向）
长度泛化：裁剪最大距离$k$使模型适应任意长度输入

2.2 语言学视角的合理性验证

从语言结构看，相对位置更符合人类认知规律：

局部依赖：80%的语法关系发生在±3词范围内
层级结构：短语内部距离通常小于跨短语距离
焦点偏移：核心动词对远近名词的影响权重不同

例如在句子"The cat sat on the mat which was new"中：

"cat"与"sat"的紧密关系（距离1）
"cat"与"was"的弱关联（距离6）
"which"与"was"的从句内绑定（距离2）

3. 工程实现与优化策略

3.1 高效计算方案

为保持Transformer的并行计算优势，需对公式进行等效变形：

# 伪代码实现相对位置注意力 def relative_attention(q, k, v, pos_emb): # q/k/v: [batch, head, seq, dim] # pos_emb: [2k+1, dim] content_score = torch.matmul(q, k.transpose(-2,-1)) pos_index = generate_relative_positions(seq_len, k) pos_score = torch.matmul(q, pos_emb[pos_index].transpose(-2,-1)) scores = (content_score + pos_score) / sqrt(dim) return softmax(scores) @ v