当前位置: 首页 > news >正文

链式求导的本质是什么?

链式求导的本质是什么?

Posted on 2026-02-13 10:47  steve.z  阅读(0)  评论(0)    收藏  举报

链式求导(Chain Rule)的本质是复合函数变化的传递机制——它描述了当多个函数嵌套组合时,输入的微小变化如何通过每一层函数逐层传递、缩放,最终影响到输出。

核心直觉:变化率的"接力赛"

想象一个三层复合函数 \(y = f(g(h(x)))\)

x → [h] → u → [g] → v → [f] → y

\(x\) 变化一点点 \(\Delta x\)

  • 首先影响 \(h\),产生变化 \(\Delta u \approx h'(x)\Delta x\)
  • 然后这个变化传入 \(g\),产生 \(\Delta v \approx g'(u)\Delta u\)
  • 最后传入 \(f\),产生 \(\Delta y \approx f'(v)\Delta v\)

链式法则就是把这些局部变化率连乘起来

\[\frac{dy}{dx} = \frac{dy}{dv} \cdot \frac{dv}{du} \cdot \frac{du}{dx} = f'(v) \cdot g'(u) \cdot h'(x) \]

为什么本质上是"连乘"?

因为导数是线性近似中的比例系数。在每个点附近,函数 behaves like 一个缩放器:

  • \(h\)\(x\) 处像个"放大器",倍数是 \(h'(x)\)
  • \(g\)\(u\) 处像个"放大器",倍数是 \(g'(u)\)
  • 总效果就是把这些放大倍数相乘

多维推广:雅可比矩阵的链式法则

对于向量值函数 \(\mathbf{y} = \mathbf{f}(\mathbf{g}(\mathbf{x}))\),单变量导数变成雅可比矩阵,链式法则变成矩阵乘法

\[J_{\mathbf{f}\circ\mathbf{g}}(\mathbf{x}) = J_{\mathbf{f}}(\mathbf{g}(\mathbf{x})) \cdot J_{\mathbf{g}}(\mathbf{x}) \]

这解释了神经网络反向传播的核心:梯度是 Jacobian 的转置,从输出层向输入层逐层反向传播,每一层左乘一个 Jacobian 矩阵。

一句话总结

链式求导的本质是:复合系统的总敏感度,等于各组成部分敏感度的乘积(或矩阵连乘)。

这也是为什么它在物理学(相关变化率)、机器学习(反向传播)、控制理论(级联系统)中如此普遍——任何分层/模块化的系统,其整体响应都是局部响应的链式组合。