当前位置：首页 > news >正文

别再死记硬背了！从Sigmoid到ReLU，我用一个Excel表格帮你彻底搞懂激活函数梯度消失

news 2026/4/15 5:30:54

用Excel破解神经网络之谜：Sigmoid与ReLU的梯度消失实验指南

当我在第一次接触神经网络时，那些复杂的数学公式和抽象概念让我望而却步。直到有一天，我偶然发现用Excel表格可以直观地展示激活函数在反向传播中的表现差异，一切突然变得清晰起来。这篇文章将带你用最熟悉的工具——Excel，亲手构建一个微型神经网络，亲眼见证Sigmoid如何"杀死"梯度，而ReLU又如何成为深度学习革命的功臣。

1. 准备工作：搭建Excel神经网络实验台

在开始实验前，我们需要在Excel中搭建一个极简的神经网络模拟环境。这个模型只有两层：一个输入层（2个神经元）、一个隐藏层（2个神经元）和一个输出层（1个神经元）。别担心，即使你是Excel新手，也能轻松完成这个设置。

实验参数初始化表：

参数类型	符号	初始值	说明
输入值	x1	0.5	第一个输入特征
输入值	x2	-0.3	第二个输入特征
权重	W1_11	0.15	输入1到隐藏1的权重
权重	W1_12	-0.2	输入1到隐藏2的权重
权重	W1_21	0.1	输入2到隐藏1的权重
权重	W1_22	0.25	输入2到隐藏2的权重
偏置	b1_1	0.05	隐藏层1的偏置
偏置	b1_2	-0.1	隐藏层2的偏置
权重	W2_1	0.3	隐藏1到输出的权重
权重	W2_2	-0.4	隐藏2到输出的权重
偏置	b2	0.2	输出层的偏置
目标值	y	0.8	期望输出值
学习率	η	0.1	梯度下降步长

在Excel中按照上表设置好初始参数后，我们就可以开始构建前向传播的计算流程了。记住，这个实验的关键不是追求数学完美，而是通过可视化的数据变化理解神经网络的核心机制。

2. 前向传播：从输入到输出的数据旅程

前向传播是神经网络做出预测的过程。在我们的Excel模型中，这个过程可以分为三个主要步骤：

输入层到隐藏层的计算：
- 隐藏层神经元1的输入：z1 = x1*W1_11 + x2*W1_21 + b1_1
- 隐藏层神经元2的输入：z2 = x1*W1_12 + x2*W1_22 + b1_2
激活函数应用：
- 我们先使用Sigmoid函数：a1 = 1/(1+EXP(-z1))，a2 = 1/(1+EXP(-z2))
- 后续实验中会替换为ReLU：a1 = MAX(0,z1)，a2 = MAX(0,z2)
隐藏层到输出的计算：
- 最终输出：y_pred = a1*W2_1 + a2*W2_2 + b2

Excel公式设置技巧：

使用命名单元格(range names)让公式更易读
用条件格式高亮显示关键数值的变化
为激活函数创建单独的计算列，方便对比不同函数的效果

完成这些设置后，你应该能在Excel中看到完整的预测流程。记录下初始预测值，我们将在反向传播中观察它如何逐步接近目标值。

3. 反向传播：梯度消失现象的直观展示

反向传播是神经网络学习的关键。我们将分别在Sigmoid和ReLU激活函数下，观察梯度是如何从输出层传播回输入层的。

3.1 损失函数与初始梯度计算

我们使用均方误差(MSE)作为损失函数：

Loss = (y_pred - y)^2 / 2

在Excel中，我们可以这样计算初始梯度：

输出层梯度：∂Loss/∂y_pred = y_pred - y
隐藏层到输出层的权重梯度：
- ∂Loss/∂W2_1 = (y_pred - y) * a1
- ∂Loss/∂W2_2 = (y_pred - y) * a2

3.2 Sigmoid激活下的梯度传播

当使用Sigmoid激活时，隐藏层梯度的计算会涉及Sigmoid的导数：

σ'(z) = σ(z) * (1 - σ(z))

在Excel中计算：

隐藏层神经元1的梯度：δ1 = (y_pred - y) * W2_1 * a1 * (1 - a1)
隐藏层神经元2的梯度：δ2 = (y_pred - y) * W2_2 * a2 * (1 - a2)

Sigmoid梯度消失现象观察表：

迭代次数	W1_11梯度	W1_12梯度	W2_1梯度	W2_2梯度	Loss值
1	0.0021	0.0018	0.045	-0.038	0.125
5	0.0000	0.0000	0.001	-0.001	0.124
10	0.0000	0.0000	0.000	0.000	0.124

从表中可以清晰看到，随着迭代进行，靠近输入层的权重梯度迅速趋近于零，这就是典型的梯度消失现象。因为Sigmoid的导数最大只有0.25，多层连乘后梯度会指数级衰减。

3.3 ReLU激活下的梯度传播

切换到ReLU激活函数后，梯度的计算变为：

ReLU'(z) = 1 if z > 0 else 0

在Excel中：

隐藏层神经元1的梯度：δ1 = (y_pred - y) * W2_1 * IF(z1>0,1,0)
隐藏层神经元2的梯度：δ2 = (y_pred - y) * W2_2 * IF(z2>0,1,0)

ReLU梯度保持现象观察表：

迭代次数	W1_11梯度	W1_12梯度	W2_1梯度	W2_2梯度	Loss值
1	0.0083	-0.0069	0.045	-0.038	0.125
5	0.0067	-0.0056	0.036	-0.031	0.098
10	0.0054	-0.0045	0.029	-0.025	0.077

与Sigmoid形成鲜明对比，ReLU在正区间导数为1，不会导致梯度连乘衰减。因此，各层的权重都能得到有效的更新，Loss值也下降得更快。

4. 深度网络中的激活函数选择策略

通过前面的实验，我们已经直观理解了不同激活函数在梯度传播中的表现差异。现在让我们深入探讨在实际深度学习模型中如何选择合适的激活函数。

4.1 激活函数特性对比

常见激活函数特性对比表：

特性	Sigmoid	Tanh	ReLU	LeakyReLU
输出范围	(0,1)	(-1,1)	[0,∞)	(-∞,∞)
导数范围	(0,0.25]	(0,1]	{0,1}	{a,1}
梯度消失风险	高	中	低(正区间)	很低
计算复杂度	高	高	低	低
死亡神经元风险	无	无	有	很低
输出均值	0.5	0	>0	≈0