当前位置：首页 > news >正文

别再死记硬背了！用Python和PyTorch亲手画一遍Sigmoid、Tanh、ReLU激活函数，理解立马不一样

news 2026/5/2 21:01:15

用Python和PyTorch亲手绘制激活函数：从代码中理解神经网络的核心机制

在深度学习的世界里，激活函数就像是神经元的"开关"，决定了信息是否应该被传递下去。很多初学者会陷入死记硬背函数公式和特性的误区，却忽略了最本质的理解——这些函数在实际数据流动中究竟如何表现？今天，我们将打破常规，用代码和可视化带你重新认识Sigmoid、Tanh和ReLU这三个最基础的激活函数。

1. 环境准备与基础概念

在开始绘制之前，我们需要搭建一个简单的Python环境。推荐使用Anaconda创建虚拟环境，这能避免包版本冲突：

conda create -n activation_functions python=3.8 conda activate activation_functions pip install torch matplotlib numpy

激活函数的数学本质是一个非线性变换，它为神经网络引入了非线性因素。没有激活函数，无论多少层的神经网络都等价于单层线性变换。理解这一点至关重要：

非线性：使神经网络能够拟合任意复杂函数
可微性：保证可以通过反向传播更新权重
计算效率：影响训练速度的关键因素
输出范围：决定信号传递的强度范围

提示：虽然Softmax也是重要的激活函数，但它的多分类特性与本文重点不同，我们将专注于前三个经典函数。

2. Sigmoid函数：从生物学启发的经典

让我们首先实现Sigmoid函数。在PyTorch中，我们可以用三种方式定义它：

import torch import matplotlib.pyplot as plt # 方法1：使用基本数学运算 def sigmoid(x): return 1 / (1 + torch.exp(-x)) # 方法2：使用PyTorch内置函数 torch_sigmoid = torch.nn.Sigmoid() # 方法3：使用Lambda表达式 sigmoid_lambda = lambda x: 1 / (1 + torch.exp(-x))

绘制函数曲线及其导数：

x = torch.linspace(-10, 10, 1000, requires_grad=True) y = sigmoid(x) y.sum().backward() # 计算导数 plt.figure(figsize=(12, 5)) plt.subplot(1, 2, 1) plt.plot(x.detach(), y.detach(), label='Sigmoid') plt.title("Sigmoid Function") plt.grid(True) plt.subplot(1, 2, 2) plt.plot(x.detach(), x.grad, label='Derivative', color='orange') plt.title("Sigmoid Derivative") plt.grid(True) plt.show()

观察图像时，注意这些关键特性：

特性	表现	影响
输出范围	(0,1)	适合表示概率
饱和区	两端梯度接近0	导致梯度消失
中心点	f(0)=0.5	不以零为中心
平滑性	处处可导	训练稳定性好

实际应用中的发现：在早期的神经网络中，Sigmoid被广泛使用，但在深层网络中，多个Sigmoid叠加会导致梯度指数级减小，这就是著名的"梯度消失"问题。我在调试一个5层全连接网络时，发现使用Sigmoid后前三层的权重几乎不再更新。

3. Tanh函数：改进的零中心化激活

Tanh函数可以看作是Sigmoid的缩放平移版本，实现起来同样简单：

def tanh(x): return (torch.exp(x) - torch.exp(-x)) / (torch.exp(x) + torch.exp(-x)) # PyTorch内置版本 torch_tanh = torch.nn.Tanh()

比较Tanh与其导数的代码：

x = torch.linspace(-5, 5, 1000, requires_grad=True) y = tanh(x) y.sum().backward() plt.figure(figsize=(12, 10)) plt.subplot(2, 2, 1) plt.plot(x.detach(), y.detach()) plt.title("Tanh Function") plt.subplot(2, 2, 2) plt.plot(x.detach(), x.grad) plt.title("Tanh Derivative") # 对比Sigmoid和Tanh plt.subplot(2, 2, 3) plt.plot(x.detach(), sigmoid(x).detach(), label='Sigmoid') plt.plot(x.detach(), y.detach(), label='Tanh') plt.legend() plt.title("Sigmoid vs Tanh") plt.tight_layout() plt.show()

从可视化中可以直观看到Tanh的优势：

输出范围：(-1,1)的对称区间，解决了Sigmoid不以零为中心的问题
梯度强度：在相同输入下，Tanh的梯度比Sigmoid更大
曲线形状：更陡峭的过渡区，对输入变化更敏感

但Tanh仍然存在梯度消失问题。我在RNN项目中测试发现，虽然Tanh比Sigmoid表现更好，但在处理长序列时仍然会出现梯度衰减。

4. ReLU函数：简单却强大的现代选择

ReLU（Rectified Linear Unit）的实现最为简单：

def relu(x): return torch.maximum(torch.tensor(0), x) # PyTorch内置版本 torch_relu = torch.nn.ReLU()

绘制ReLU及其导数的代码有个小技巧——需要手动定义导数：

x = torch.linspace(-3, 3, 1000, requires_grad=True) y = relu(x) # 手动计算导数 with torch.no_grad(): derivative = (x > 0).float() plt.figure(figsize=(12, 5)) plt.subplot(1, 2, 1) plt.plot(x.detach(), y.detach()) plt.title("ReLU Function") plt.subplot(1, 2, 2) plt.step(x.detach(), derivative, where='post') plt.title("ReLU Derivative") plt.show()

ReLU的特性使其成为现代深度学习的首选：

计算效率：只需要比较和取最大值操作
稀疏激活：负输入直接输出0，减少参数更新
缓解梯度消失：正区梯度恒为1，允许深层网络训练

但ReLU也有著名的"死亡神经元"问题：一旦神经元输出为0，可能永远无法激活。我在训练CNN时遇到过约15%的神经元永久死亡的情况，这时可以尝试LeakyReLU等变体。

5. 三函数对比与实战建议

现在我们将三个函数放在同一坐标系中比较：

x = torch.linspace(-4, 4, 1000) plt.figure(figsize=(10, 6)) plt.plot(x, sigmoid(x).detach(), label='Sigmoid') plt.plot(x, tanh(x).detach(), label='Tanh') plt.plot(x, relu(x).detach(), label='ReLU') plt.legend() plt.grid(True) plt.title("Three Activation Functions Comparison") plt.show()

从实际应用角度，这是我的经验总结：

何时使用哪种激活函数？

场景	推荐激活函数	理由
二分类输出层	Sigmoid	天然概率输出
RNN/LSTM	Tanh	处理正负信号
CNN/深度前馈网络	ReLU	计算高效
担心神经元死亡	LeakyReLU	保留负值信息