当前位置: 首页 > news >正文

对RNN(循环神经网络),LSTM(长短期记忆网络),BiLSTM(双向长短期记忆网络)等算法的一些介绍

NLP-AHU-053

本文旨在从设计灵感、算法细节、数学表达介绍NLP(自然语言处理)中三个最常见的算法,同时以博客的形式,理清他们三个的设计逻辑,帮助大家更好的理解序列模型。

前言:RNN->LSTM->BiLSTM是一种递进关系,都在前者基础上进行了升级,下面将展开逐步介绍。

一、RNN的诞生,解决传统神经网络的痛点

1.RNN的设计启发

在RNN出现之前,传统的神经网络存在明显的缺陷,比如只能处理独立的输入,无法捕捉序列数据的时序关系、输入输出长度固定等。为解决这些问题,所以科学家们就想:能不能设计一种带有“记忆”功能的网络,让它能把上一步的信息传递到下一步,模拟人类的“记忆习惯”,从而逐步理解整个序列。于是,RNN(循环神经网络)育孕而生,它引入隐状态“(Hidden State)”概念,能保留前文信息并传递到后续计算中,达成对序列数据的动态处理。

2.RNN的核心结构

RNN的核心在于”循环“,如图所示,它的每一步的输入都会结合上一步的隐藏状态,更新当前的隐藏状态,再输出结果。

这里介绍一种单隐层RNN结构,分为以下三个部分:

1.输入层:表示第t时刻的输入(比如句子中的第t个词的嵌入向量)

2.隐藏层:核心是隐藏状态,负责“记忆”上一步的信息,是RNN的核心

3. 输出层:表示第t时刻的输出

RNN的记忆是短期的,无法记住序列中早期的关键信息,还会出现梯度消失、梯度爆炸等问题。

梯度消失:当序列过长时,梯度会随着反向传播不断减小,最终趋近于0,导致模型无法更新早期参数,无法学习到远距离依赖。

梯度爆炸:少数情况下梯度会急剧增大,超出参数更新范围,导致模型训练崩溃。

3.RNN算法细节与数学公式

RNN的核心是“隐藏状态的循环更新”

1.更新隐藏状态公式(核心)

2.计算当前时刻输出公式:

公式中各参数含义:

:输入层到隐藏层的权重矩阵,负责把输入映射到隐藏层维度

:隐藏层到自身的循环权重矩阵,负责把上一步的隐藏状态传递到当前时刻

:隐藏层到输出层的权重矩阵,负责把隐藏状态映射到输出维度

:分别是隐藏层和输出层的偏置项,用于调整输出基线

二、LSTM(长短期记忆网络):RNN的“PLUS版”,解决“记不住”的问题

1.LSTM的设计启发

既然RNN记不住长序列,那我们可以设计一种“更聪明”的记忆机制,让它能选择性遗忘没用的信息、记住有用的信息,于是LSTM诞生了。LSTM是由Hochreiter & Schmidhuber在1997年提出的,核心就是解决RNN的梯度消失问题,让模型能记住长序列的信息。就像追剧时,我们能记住主角的核心目标,却会忘记前三集里路人甲的台词,这种“选择性记忆”的能力,正是LSTM的核心逻辑,它在RNN基础上增加了门控机制,能自主“记住”重要信息、“遗忘”无关信息,相当于给RNN的“记忆”加了“筛选器”。

2.LSTM的核心结构:3种门控结构

核心结构组成:

1. 新增细胞状态:负责存储长期记忆,梯度可以沿着细胞状态流畅传播,不会轻易消失

2. 候选细胞状态:相当于“临时记忆草稿”,存储当前输入的新信息,等待被筛选后写入长期记忆库

3. 三个门控(均用sigmoid激活,输出0~1之间的值,0表示“完全关闭”,1表示“完全打开”):

  • 遗忘门():决定“忘掉多少旧记忆”(筛选长期记忆库中的信息)

  • 输入门():更新细胞状态,将当前输入的重要信息存入“长期记忆”

  • 输出门():决定输出多少记忆(从长期记忆库中筛选信息,更新隐藏状态并输出)

3.LSTM的算法细节和数学公式

1. 遗忘门:判断上一时刻的细胞状态(长期记忆)中,哪些信息需要保留,哪些需要遗忘

公式:

2. 输入门:分两步处理新信息:先筛选当前输入的新信息,再生成候选记忆

公式:

3. 更新细胞状态:将旧的长期记忆和新的候选记忆结合,得到当前时刻的长期记忆

公式:

4. 输出门:从当前的长期记忆中,筛选出对当前任务有用的信息,更新隐藏状态,并输出结果

公式:

三、BiLSTM(双向长短期记忆网络):LSTM的“加强版”,兼顾上下文

1.BiLSTM的设计启发

LSTM虽然解决了长序列记忆问题,但它有一个局限:只能 “从左到右” 处理序列(或者从右到左),无法同时利用“前文”和“后文”的信息。而我们人类理解语言时,很多时候需要结合上下文才能判断语义。简单来说,LSTM是单向记忆,BiLSTM是双向记忆,它能同时从左到右和从右到左处理序列,捕捉更全面的上下文信息。

2.BiLSTM的结构设计

BiLSTM的结构其实很简单,核心就是“两个独立的LSTM并行工作”,一个按原始序列顺序(从左到右,前向LSTM)处理,一个按逆序(从右到左,后向LSTM)处理,两者共享输入,最后把两个LSTM的输出拼接起来,得到每个时刻的最终隐藏状态。

核心结构组成:

  • 前向LSTM:按序列顺序处理,输出前向隐藏状态

  • 后向LSTM:按序列逆序处理,输出后向隐藏状态

  • 最终隐藏状态:将前向和后向隐藏状态拼接(),再输入输出层得到结果

这种双向运行的结构,可以让模型在文本分类、机器翻译、情感分析等NLP任务中取得更好的效果

3.BiLSTM的算法细节和数学公式

BiLSTM的数学表达很简单,因为它的核心还是LSTM的计算逻辑,只是多了一个反向的LSTM,然后拼接输出。

1. 前向LSTM计算

公式:

2. 后向LSTM计算(与普通LSTM完全一致,只是序列相反)

公式:

3. 最终隐藏状态与输出

将前后隐藏状态拼接,得到最终隐藏状态与输出

公式:

四、总结:RNN,LSTM,BiLSTM三者对比

模型设计启发核心结构记忆能力方向
RNN

模拟人类“顺序记忆”,捕捉序列时序关系

单一隐藏状态,无门控

差,易梯度消失,记不住长序列

单向
LSTM

模拟人类“选择性记忆”,解决RNN长依赖问题

细胞状态+三个门控+候选细胞

强,可记住长序列,避免梯度消失

单向
BiLSTM

模拟人类“上下文理解”,利用序列双向信息

两个并行LSTM(前向+后向),拼接输出

最强,兼顾长序列和上下文

双向
http://www.jsqmd.com/news/600780/

相关文章:

  • CSS Grid布局如何控制网格轨道数量_利用repeat函数简化设置
  • VibeVoice-TTS-Web-UI在内容创作中的应用:自动生成播客节目
  • AcousticSense AI优化升级:如何提升识别准确率和响应速度
  • Android 11 Settings功能裁剪实战:从PreferenceController到XML配置的完整流程解析
  • AI手势识别为何不用GPU?高效CPU推理实战指南
  • ANIMATEDIFF PRO应用案例:如何制作具有电影感的日落海滩动态壁纸
  • 2026海安代理记账机构专业度深度评测报告:海安代办营业执照/海安公司注销代办/海安工商代办/海安工商变更/选择指南 - 优质品牌商家
  • 别再手动部署了!用Jenkins Pipeline + K8s + Harbor 实现Spring Boot项目自动化发布(保姆级教程)
  • PCIe总线-RK3588 ATU配置与地址转换机制深度解析(十二)
  • 跨平台文件同步:OpenClaw+Qwen3-4B自动归类NAS中的文档
  • AD20拼板太麻烦?华秋DFM一键搞定Gerber导入与拼板(附详细避坑指南)
  • 百度PaddleOCR-VL-WEB效果实测:识别精度超高,多语言支持
  • 【力扣100题】13.合并两个有序链表
  • SDMatte多模态应用初探:结合CLIP实现以文搜图与智能裁剪
  • CYBER-VISION零号协议场景解析:如何用AI分割技术重构视障者导航体验?
  • Qwen3-4B-Instruct-2507新手入门:从零开始搭建AI对话服务
  • AI识图新体验:万物识别中文镜像快速部署与实战演示
  • 读2025世界前沿技术发展报告34海洋信息技术
  • 识别越强,越接近失败?——为什么没有空间坐标的AI,永远无法控制真实世界
  • 计算机毕业设计:Python网约车运营数据智能分析系统 Django框架 可视化 数据大屏 数据分析 大数据 机器学习 深度学习(建议收藏)✅
  • 图图的嗨丝造相-Z-Image-Turbo部署教程:使用systemd守护Xinference服务实现7×24小时稳定运行
  • Lychee-Rerank惊艳效果:支持表格型文档输入与结构化匹配展示
  • AXURE RP 9中继器实战:5分钟搞定商品列表页(附完整数据集配置)
  • Spine动画在Unity中的高级应用:事件监听与动态切换Attachment
  • 2026宜宾白酒加盟公司优质推荐指南:白酒招商代理/缺陷酒修复/苦味酒处理/调味酒优选/酒体提质/选择指南 - 优质品牌商家
  • 科研党福音:OpenClaw+Qwen3-14b_int4_awq自动整理文献笔记
  • Mac开发者必备:OpenClaw与Qwen3.5-9B的5种开发提效场景
  • Ubuntu服务器运维指南:霜儿-汉服-造相Z-Turbo模型服务的监控与高可用保障
  • Rembg 图片去背景工具 懒人整合包 优化可视化界面和添加模型 cpu可用 gpu可用
  • Hunyuan MT1.8B显存不足?量化后GPU优化部署让利用率提升300%