当前位置: 首页 > news >正文

RNN、LSTM、BiLSTM学习笔记

NLP-AHU-197

一、RNN

1. 是什么

RNN是一种专门用来处理序列数据的神经网络,比如文本、语音、时间序列。

2. 为什么这么设计

普通神经网络假设每个输入都是独立的,但序列数据前后有关联。比如读一句话,前面的词会影响后面的理解。所以RNN设计了“循环”结构,让信息可以往后传。

3. 怎么工作的

每个时间步,RNN会接收当前输入和上一个时间步传过来的隐藏状态,然后输出新的隐藏状态。这个隐藏状态就像“记忆”,包含了之前看到的信息。

4. 核心公式

5. 缺点

- 梯度消失:反向传播时梯度越传越小,远处的信息学不到

- 梯度爆炸:梯度越传越大,训练不稳定

- 实际只能记住短距离的信息,大概10步左右

二、LSTM

1. 是什么

LSTM是RNN的改进版,专门为了解决RNN记不住长距离信息的问题。

2. 为什么这么设计

受人类记忆机制启发:人会决定记住什么、忘记什么。LSTM引入了“门”的概念,让网络自己学习哪些信息该保留、哪些该丢弃。

3. 核心结构

LSTM比RNN多了“细胞状态”,可以理解成一条传送带,信息在上面流动时变化很小,方便梯度传播。

三个门:

- 遗忘门:决定丢掉多少旧记忆

- 输入门:决定加入多少新信息

- 输出门:决定输出什么

4. 核心公式

5. 为什么比RNN好

细胞状态的更新是加法运算,不是乘法。反向传播时梯度沿着这条路走不会快速衰减,所以能记住很久以前的信息。

三、BiLSTM

1. 是什么

BiLSTM就是把两个LSTM拼在一起:一个从左往右读,一个从右往左读。

2. 为什么这么设计

普通LSTM只能看到上文,看不到下文。但很多任务需要同时看前后文。比如判断“苹果”是水果还是公司,得看后面有没有“公司”这个词。

3. 怎么工作的

- 前向LSTM:从第一个词读到最后一个词

- 后向LSTM:从最后一个词倒着读到第一个词

- 把两个方向得到的隐藏状态拼在一起,作为最终输出

4. 公式

5. 适用场景

- 文本分类

- 命名实体识别

- 情感分析

- 机器翻译

四、三者对比

RNN :有循环结构 ,结构简单,但是记不住长距离 。

LSTM :三门+细胞状态 ,能记住长距离 ,但是参数多,慢一点 。

BiLSTM : 双向拼接 ,能看完整上下文 ,但是 不能实时处理 。

http://www.jsqmd.com/news/603700/

相关文章:

  • 飞檐走壁分科目比赛建议
  • 【Motrix】Motrix官网下载:中文版下载工具使用指南(2026实测) - xiema
  • 读懂公司第二篇-利润表深度解读 - 智慧园区
  • 实战指南:基于快马生成的配置将openclaw部署至生产环境
  • SAP权限对象深度解析:如何用SU21自定义企业级数据权限控制?
  • 电机控制-MOS驱动和MOSFET如何匹配的,并计算栅极驱动电阻
  • 从手动到半自动:详解Metashape控制点校准航拍影像偏移的实战流程
  • MMsegmentation训练卡在第一个epoch?手把手教你修改DefaultSampler和EpochBasedRunner
  • 必看!2026主流GEO服务商盘点,新手博主/商家避坑指南 - 品牌测评鉴赏家
  • 别再问哪个AI 最强了,把它们放进同一个考场就知道
  • 解锁3大网页设计黑科技:从像素到原型的无缝转换
  • C++的std--ranges适配器元素
  • 2026上班族白发用什么染发膏好?温和便捷成首选 - 品牌排行榜
  • AI初创公司Rocket推出低成本咨询级产品策略报告平台
  • Go Module 的依赖版本控制
  • 2026防脱精华液适合男士的品牌推荐及养护指南 - 品牌排行榜
  • 测试工程师的悲哀:我们正在成为“人肉脚本”
  • 新概念英语第一册103_The French test
  • HTML打包EXE配置管理教程:多项目打包设置一键保存、加载与切换
  • 企业 AI 看起来很热,为什么真正稳定见效的并不多
  • Java 设计模式最佳实践:构建可维护的应用
  • LongCat-Image-Editn参数详解:UNet结构精简设计+CLIP文本编码器微调策略
  • Kilo推出企业智能体管理平台应对影子AI挑战
  • 暗黑3自动化工具终极指南:如何用智能技能宏提升游戏效率
  • 基于信息熵序数偏好法的多目标粒子群优化算法在电力系统储能选址定容中的研究与应用
  • 深度解析VeraGrid:电力系统开源仿真平台的架构革新与实践应用
  • 3个提升效率的Mac鼠标增强方案
  • 快速构建法律科技门户:使用快马AI十分钟生成qclaw官网原型
  • 别再死记硬背公式了!用Multisim仿真带你玩转OCL/OTL/BTL功放,手把手分析交越失真
  • ModTheSpire技术深度解析:Java字节码注入与游戏模组加载器架构剖析