当前位置: 首页 > news >正文

反向传播为何如此高效?解锁其核心引擎:链式法则


反向传播为何如此高效?解锁其核心引擎:链式法则

一、从计算图的反向传播说起

我们先来看一个最简单的例子。假设有一个计算:y = f(x),它的反向传播过程如下图所示:

关键点

  • 反向传播时,信号(比如上图中的 E)会沿着与正向传播相反的方向流动。
  • 每经过一个节点,信号就会乘以该节点函数的局部导数(即∂y/∂x)。
  • 结果继续传给上一个节点。

例如,若y = f(x) = x²,则局部导数为∂y/∂x = 2x。反向传播时,上游传来的值会乘以2x,再继续往前传。

那么,为什么这种“倒着传并相乘”的方式,就能高效地计算出我们需要的所有导数呢?
答案就在链式法则之中。

二、链式法则:复合函数求导的“捷径”

链式法则,本质上是关于复合函数求导的性质。
什么是复合函数?比如:

z = (x + y)²

它可以看作由两个函数复合而成:

  1. t = x + y
  2. z = t²

链式法则告诉我们:一个复合函数的导数,等于组成它的各层函数的导数的乘积。

写成数学形式就是:

∂z/∂x = ∂z/∂t · ∂t/∂x

有没有发现等式右边的∂t看起来像是可以“约掉”的?这其实是链式法则的一个直观记忆方法——就像连锁反应一样,导数可以沿着路径逐层传递。

三、动手算一下:链式法则的实际应用

我们还是用z = (x + y)²的例子,来实际求一下∂z/∂x

  1. 先拆解函数,并求局部导数

    • ∂z/∂t = 2t
    • ∂t/∂x = 1
  2. 根据链式法则:

    ∂z/∂x = ∂z/∂t · ∂t/∂x = 2t · 1 = 2t
  3. 因为t = x + y,所以最终结果:

    ∂z/∂x = 2(x + y)

可以看到,我们不需要直接对z = (x+y)²求导,而是通过中间变量t,分步、分层地完成计算。这就是链式法则的威力。

四、当链式法则遇上计算图:反向传播的诞生

如果我们把上面的计算过程用计算图表示,并标出反向传播的路径,会得到下面这张图:

我们来跟踪一下反向传播的流程

  1. 信号从最右边的∂z/∂z开始(其实就是1)。
  2. 经过 “²” 节点时,信号乘以该节点的局部导数∂z/∂t
  3. 再经过 “+” 节点时,信号乘以∂t/∂x
  4. 最终到达左端,得到的结果正是∂z/∂x

你会发现,计算图上反向传播的路径,完全对应链式法则的乘法链

∂z/∂x = (∂z/∂z) · (∂z/∂t) · (∂t/∂x)

这正是反向传播能够自动、高效计算所有参数梯度的根本原因。

代入我们刚才算出的具体导数∂z/∂t = 2t∂t/∂x = 1,最终结果∂z/∂x = 2(x+y)便一目了然:

五、博主小结

链式法则,是反向传播的灵魂。
它允许我们将复杂的复合函数求导,分解为一系列简单操作的导数乘积。而计算图的反向传播,则是链式法则的一个可视化、程序化的完美实现

理解了这个过程,你就不再会觉得反向传播是“玄学”。它只是在计算图上,沿着链式法则规定的路径,将梯度从输出端“送”回每一个输入端而已。这种机制使得神经网络无论多深,都能在一次前向和一次后向传播中,高效计算出所有参数的梯度。

希望这篇文章能帮你打通理解反向传播的“任督二脉”。下次我们聊聊激活函数的导数在反向传播中扮演的角色。

http://www.jsqmd.com/news/268378/

相关文章:

  • 【tensorRT从零起步高性能部署】22-TensorRT基础-模型推理动态shape
  • 内网凭据挖掘技术深度揭秘:从终端渗透到网络服务的企业防线突破全链路解析
  • 这家西方开源大模型公司,开源出了DeepSeek-V3背后的架构!头部模型表现都差不多了,Mistral CEO自曝如何赚钱
  • 2026开年炸雷!Apache Kafka三重高危漏洞肆虐:RCE+DoS+SSRF齐发,波及2.0.0-3.9.0全版本,企业升级刻不容缓
  • 方程豹豹8开启智驾撞牛未停车 车主质疑:智驾有什么用呢?
  • 【普中STM32F1xx开发攻略--标准库版】-- 第 29 章 内部温度传感器实验
  • 手搓HTML解析器:500行代码实现完整的DOM树构建
  • 三招速查本机端口占用
  • 护照阅读器:爱达魔都号邮轮的高效登船助力
  • 【读书笔记】《日常生活中的自我呈现》
  • 小程序毕设项目推荐-基于微信小程序的文化娱乐购票系统基于springboot+微信小程序的话剧票务管理系统【附源码+文档,调试定制服务】
  • 马斯克狂砸16亿「买」他五年!揭秘特斯拉2号人物,那个睡工厂的狠人
  • 双目摄像头:让人脸登录更安全可靠
  • 【读书笔记】《傅雷家书》
  • R8240数字电子计
  • 纽约时报:OpenAI或将在18个月内现金流枯竭
  • 手机也能跑AI?用DeepSeek-R1-Distill-Qwen-1.5B打造边缘计算助手
  • 盘点便宜好用的古籍识别OCR:6款古籍识别网站
  • 英文文献检索技巧与高效策略:提升学术文献检索效率的实用指南
  • 一个星期又赚了4387元
  • AI 智能体工具与模型上下文协议 (MCP) 深度解析
  • Unsloth镜像免配置优势解析:10分钟完成Qwen微调部署
  • 2026年山东土工格栅厂家实力榜:塑料土工格栅、玻纤土工格栅、钢塑土工格栅、高分子复合材料与生态护坡解决方案五家企业凭技术与工程应用脱颖而出 - 海棠依旧大
  • 从文本到语音的极致加速|Supertonic ONNX Runtime性能实测
  • CV-UNet问题排查:常见错误及解决方案大全
  • 避坑指南:Open Interpreter本地AI编程常见问题全解
  • 微信小程序毕设项目:基于springboot+微信小程序的话剧票务管理系统(源码+文档,讲解、调试运行,定制等)
  • 宽电压输入升降压线性电源模块 低纹波可调正负输出
  • NotaGen问题排查:解决生成失败的常见错误
  • 超详细版:Elasticsearch内存模型K8s部署实践