当前位置：首页 > news >正文

第16篇：长短期记忆网络（LSTM）——解决RNN“遗忘症”的良方（原理解析）

news 2026/6/7 14:34:24

文章目录

- 现象引入：RNN的“记忆短路”问题
- 提出问题：如何让网络拥有“可控记忆”？
- 原理剖析：LSTM的三道门与一条记忆线
- - 第一道门：遗忘门（Forget Gate）
  - 第二道门：输入门（Input Gate）与候选值
  - 更新细胞状态
  - 第三道门：输出门（Output Gate）
- 源码印证：透过PyTorch看LSTM实现
- 实际影响：为什么LSTM成为里程碑？

现象引入：RNN的“记忆短路”问题

几年前，我接手一个文本情感分析项目，需要模型能理解句子中长距离的依赖关系，比如“虽然这部电影的特效非常震撼，场景也宏大，演员阵容堪称豪华，但是，由于剧情逻辑的混乱和台词的苍白，整体上让我感到非常失望”。用经典的RNN（循环神经网络）跑了几轮，效果总是不理想。模型似乎只记住了最后“感到非常失望”，却“忘记”了前面那一大串的“虽然…”，导致判断时常出错。这就是RNN著名的“长期依赖”问题，也叫梯度消失/爆炸。简单说，RNN的记忆像金鱼，信息在时间步间传递时，梯度会指数级衰减或增长，导致它学不会长序列中远距离的关联。当时我就想，必须得用LSTM了。

提出问题：如何让网络拥有“可控记忆”？

面对RNN的“遗忘症”，我们核心要解决两个问题：

如何长期保存重要信息？比如上面例子中，“虽然”这个转折词所引导的语义，需要穿越很长距离去影响最后的结论。
如何选择性记忆与遗忘？不是所有信息都值得一直记住。比如“特效震撼”这个正面信息，在遇到“但是”后，其重要性就应该被降低。

LSTM（Long Short-Term Memory，长短期记忆网络）的提出，正是为了赋予网络这种“可控的记忆能力”。它不是一个黑盒子，其设计思想非常精妙，核心在于用“门控”机制来管理一个叫做“细胞状态”的记忆主线。

原理剖析：LSTM的三道门与一条记忆线

你可以把LSTM单元想象成一个信息加工车间，其中有一条贯穿始终的传送带，叫做细胞状态（Cell State，记为 C_t）。这条传送带是LSTM实现长期记忆的关键，它只在少量线性交互下贯穿时间，信息在上面流动很容易保持不变。车间的所有操作，都是围绕如何向这条传送带上“添加”或“移除”信息而展开的。

这些操作由三个结构精巧的“门”来控制，每个门都是一个Sigmoid神经网络层和一个点乘操作的组合。Sigmoid层输出0到1之间的值，描述“让多少信息通过”，0代表“全不让过”，1代表“全放行”。

第一道门：遗忘门（Forget Gate）

作用：决定从细胞状态中丢弃哪些信息。
这是LSTM的第一步。它查看当前输入x_t和上一个隐藏状态h_{t-1}，并为细胞状态C_{t-1}中的每个元素输出一个0到1之间的数。

f_t = σ(W_f · [h_{t-1}, x_t] + b_f)

这个f_t向量将直接与上一时刻的细胞状态C_{t-1}相乘。如果f_t的某个位置是0，就意味着“完全忘记”旧状态中对应的信息；如果是1，则意味着“完全保留”。

我的理解：这是“主动遗忘”机制。比如在读到“但是”时，遗忘门就应该学习去降低前面那些正面描述信息在细胞状态中的权重。

第二道门：输入门（Input Gate）与候选值

作用：决定将哪些新信息存入细胞状态。
这一步包含两部分：

输入门（i_t）：一个Sigmoid层，决定我们将更新哪些值。
```
i_t = σ(W_i · [h_{t-1}, x_t] + b_i)
```
候选记忆细胞（~C_t）：一个tanh层，创建一个新的候选值向量，这些值可能会被加入到细胞状态中。
```
~C_t = tanh(W_C · [h_{t-1}, x_t] + b_C)
```

接下来，我们将这两部分结合，来对细胞状态进行更新。

更新细胞状态

现在，我们可以把旧的细胞状态C_{t-1}更新为新的C_t了。

C_t = f_t * C_{t-1} + i_t * ~C_t

这个公式是LSTM的核心！它分两步：

f_t * C_{t-1}：遗忘掉我们决定要遗忘的部分。
i_t * ~C_t：添加我们决定要添加的新候选值（由输入门筛选过的）。

通过这种“先忘后加”的线性操作，细胞状态C_t实现了信息的可控流转和长期保存。梯度在这里可以稳定地流动，有效缓解了消失问题。

第三道门：输出门（Output Gate）

作用：基于细胞状态，决定输出什么。
首先，运行一个Sigmoid层（输出门）来确定细胞状态的哪些部分将被输出。

o_t = σ(W_o · [h_{t-1}, x_t] + b_o)

然后，我们将细胞状态通过tanh函数（将值压到-1和1之间），并将其与输出门的输出相乘，得到最终的隐藏状态h_t，这个h_t也会被传递到下一个时间步，并作为当前时刻的输出。

h_t = o_t * tanh(C_t)

注意，h_t和C_t是不同的。C_t是内部记忆主线，h_t是对外暴露的、经过过滤的“摘要信息”。

源码印证：透过PyTorch看LSTM实现

理论说得再漂亮，不如看一行代码。我们以PyTorch为例，看看LSTM单元的核心计算是如何实现的。这能帮你彻底理解上面的公式。

importtorchimporttorch.nnasnn# 定义一个单层LSTM单元，输入维度10，隐藏状态维度20lstm_cell=nn.LSTMCell(input_size=10,hidden_size=20)# 初始化隐藏状态h0和细胞状态c0hx=torch.randn(3,20)# (batch_size, hidden_size)cx=torch.randn(3,20)# (batch_size, hidden_size)# 当前时间步的输入input=torch.randn(3,10)# (batch_size, input_size)# 前向传播一次（对应我们上面讲的所有公式）hx_next,cx_next=lstm_cell(input,(hx,cx))# 我们自己手动实现一遍LSTMCell的核心计算，加深理解defmanual_lstm_cell(x,hx,cx,weights):""" x: 当前输入 hx: 上一时刻隐藏状态 cx: 上一时刻细胞状态 weights: 包含所有W和b的字典（为简化，这里省略拼接和拆解细节） 实际PyTorch源码中，是一次性计算所有门，再拆分的，效率更高。 """# 1. 将输入和上一隐藏状态拼接combined=torch.cat((x,hx),dim=1)# 2. 一次性计算所有门和候选值（实际源码做法）# 这对应公式中的 W * [h, x] + b，输出维度是 4 * hidden_sizegates=torch.mm(combined,weights['weight_ih'].T)+weights['bias_ih']+\ torch.mm(hx,weights['weight_hh'].T)+weights['bias_hh']# 3. 拆分出输入门(i)、遗忘门(f)、细胞候选值(g)、输出门(o)ingate,forgetgate,cellgate,outgate=gates.chunk(4,1)# 4. 应用激活函数ingate=torch.sigmoid(ingate)forgetgate=torch.sigmoid(forgetgate)cellgate=torch.tanh(cellgate)outgate=torch.sigmoid(outgate)# 5. 更新细胞状态：核心公式！cy_next=forgetgate*cx+ingate*cellgate# 6. 计算输出/下一隐藏状态hy_next=outgate*torch.tanh(cy_next)returnhy_next,cy_next

看，manual_lstm_cell函数中的第5步cy_next = forgetgate * cx + ingate * cellgate，正是我们原理部分讲的核心更新公式。PyTorch的官方实现（torch.nn._functions.rnn.LSTMCell）在底层也是严格按照这个数学定义来的，只是用了更高效的矩阵一次运算。

实际影响：为什么LSTM成为里程碑？

LSTM的提出（1997年）是RNN发展史上的一个里程碑，其影响深远：

解决了工程难题：在实际应用中，如机器翻译、语音识别、时间序列预测等需要处理长序列的任务上，LSTM的表现远超传统RNN，使其变得真正可用。
启发了更多结构：LSTM的成功证明了“门控”机制的有效性，直接催生了后来更简洁的GRU（Gated Recurrent Unit），以及更复杂的双向LSTM、深度LSTM等变体。
奠定了序列建模基础：在Transformer崛起之前，LSTM及其变体几乎是所有序列建模任务的默认选择，是自然语言处理从统计方法走向神经网络方法的关键支柱之一。

我的踩坑提示：虽然LSTM强大，但别把它当银弹。它的计算量比RNN大，参数也多。对于不是特别长的序列，或者当数据量不足时，简单的RNN或GRU可能是更高效的选择。而且，自从Transformer出现后，在很多任务上，基于自注意力的模型在长距离依赖捕捉和能力上已经超越了LSTM。但理解LSTM，依然是理解序列建模思想不可或缺的一课。

总结一下，LSTM通过引入“细胞状态”和“遗忘、输入、输出”三道门，精巧地实现了对信息的长期记忆和选择性控制，一举攻克了RNN的梯度消失难题。它的设计思想，是神经网络结构创新中的一个经典范例。

如有问题欢迎评论区交流，持续更新中…

查看全文

http://www.jsqmd.com/news/655364/