RNN/LSTM/GRU 面试高频题|梯度消失、时序优势
前言
处理文本、语音、时序数据必考循环神经网络,面试高频问到 RNN 缺陷、LSTM 三大门结构、GRU 简化原理、梯度问题、适用场景,全篇精简背诵版,自然语言处理、时序预测岗位必背。
一、RNN 循环神经网络基础
- 核心特点具备时序记忆能力,能够保存前面序列信息,用于处理前后有关联的序列数据。
- 运行逻辑当前时刻输入 + 上一时刻隐藏状态 → 计算当前输出与新隐藏状态,循环传递信息。
- 原生 RNN 致命缺陷长距离依赖能力极差,序列过长极易出现梯度消失,早期信息逐渐丢失,无法捕捉远距离关联。
二、LSTM 长短期记忆网络(面试核心)
1. 设计目的
解决传统 RNN 长序列梯度消失问题,精准记住长期有效信息、遗忘无用信息。
2. 三大核心门结构(必背)
- 遗忘门 Forget Gate控制丢弃上一时刻细胞状态中无用信息,决定哪些历史信息不要。
- 输入门 Input Gate筛选当前时刻新输入信息,决定哪些新内容存入细胞状态。
- 输出门 Output Gate根据当前细胞状态,筛选输出最终隐藏状态信息。
3. 细胞状态 Cell State
贯穿整条序列的信息传送带,线性流动几乎无信息损耗,是 LSTM 能保存长期记忆的核心。
三、GRU 门控循环单元
- 定位:LSTM 轻量化简化版本,效果接近 LSTM,训练速度更快、参数量更少
- 合并结构把 LSTM 三门简化为更新门 + 重置门
- 更新门:兼顾遗忘与输入门功能,控制历史信息保留程度 <
