当前位置: 首页 > news >正文

神经网络中激活函数的作用

我们来系统地梳理一下激活函数在神经网络中的作用。

核心作用:引入非线性

这是激活函数最根本、最重要的作用。

  1. 没有激活函数的神经网络是什么样的?
    假设你有一个多层神经网络,但所有层都是线性的(即没有激活函数)。那么,无论你堆叠多少层,整个网络的最终输出都只是输入的一个线性组合

    例如:

    • 第一层:output1 = W1 * input + B1 (线性)
    • 第二层:output2 = W2 * output1 + B2 (线性)
    • ...
    • 最终输出:final_output = Wn * ... * W2 * W1 * input + (Wn * ... * W2 * B1 + ... + Wn * Bn-1 + Bn)

    你可以把 Wn * ... * W2 * W1 看作一个新的权重矩阵 W_total,把后面一长串偏置项看作一个新的偏置 B_total。所以,整个复杂的多层网络等价于一个简单的单层线性模型:final_output = W_total * input + B_total

    这样的模型无法学习数据中的非线性关系,比如图像中的边缘、纹理,语音中的音调变化,或者文本中的语义关联。它的表达能力和一个简单的线性回归模型没有区别。

  2. 激活函数如何解决这个问题?
    激活函数通过对线性层的输出进行一个非线性变换,打破了这种线性关系。这使得神经网络能够学习和表示非常复杂的函数,从而能够处理现实世界中的复杂问题。

    • 举例:使用 ReLU 激活函数
      • 第一层:output1 = ReLU(W1 * input + B1) (非线性)
      • 第二层:output2 = ReLU(W2 * output1 + B2) (非线性)
      • ...

    现在,每一层的输出都经过了非线性扭曲,整个网络的行为不再是线性的。你堆叠的层数越多,网络能学习的函数就越复杂。

其他重要作用

除了引入非线性这个核心作用外,激活函数通常还扮演着其他几个关键角色:

  1. 控制梯度流动(避免梯度消失/梯度爆炸)

    • 梯度消失 (Vanishing Gradients):在训练深度网络时,梯度会从输出层反向传播到输入层。如果使用某些激活函数(如 Sigmoid),梯度值在传播过程中会变得越来越小,最终趋近于零。这会导致前面的层几乎无法学习。
    • 梯度爆炸 (Exploding Gradients):相反,梯度值也可能变得越来越大,导致数值溢出(NaN),使训练崩溃。
    • 现代激活函数的优势:像 ReLU 及其变体(Leaky ReLU, ELU 等)在很大程度上缓解了梯度消失问题。因为对于正数输入,ReLU 的导数是 1,使得梯度可以比较稳定地反向传播。
  2. 增加模型的稀疏性(以 ReLU 为例)
    ReLU 函数 f(x) = max(0, x) 会将所有负的输入值都变为 0。这意味着在网络中,会有大量的神经元输出为 0,即这些神经元在当前输入下是“休眠”的。

    • 好处
      • 计算效率:稀疏的激活可以减少后续层的计算量。
      • 特征选择:模型会自动学会只激活对当前任务有用的特征,提高了模型的可解释性和泛化能力。
  3. 将输出映射到特定范围(用于特定任务)

    • Sigmoid 函数:将输出值压缩到 (0, 1) 的范围内。这非常适合二分类任务的输出层,表示某个类别的概率。
    • Softmax 函数:将输出值映射为概率分布,所有输出值的和为 1。这是多分类任务输出层的标准选择。

常见的激活函数

这里列举几个你会经常遇到的激活函数:

函数 特点 适用场景
Sigmoid 将输出压缩到 (0, 1),易导致梯度消失 二分类输出层
Tanh 将输出压缩到 (-1, 1),比 Sigmoid 中心对称 曾经用于 RNN,现在较少用
ReLU max(0, x),计算简单,缓解梯度消失 隐藏层的首选
Leaky ReLU max(αx, x) (α很小),解决 ReLU 死亡神经元问题 隐藏层
ELU 指数线性单元,兼具 ReLU 和 Tanh 的优点 隐藏层
Softmax 输出概率分布 (和为 1) 多分类输出层

总结

激活函数是神经网络的“灵魂”,它通过引入非线性,让神经网络从一个简单的线性模型变成了一个强大的、能够学习复杂模式的工具。同时,它还在控制梯度流动、增加模型稀疏性和实现特定任务输出等方面发挥着关键作用。选择合适的激活函数是构建高效神经网络的重要步骤之一。

http://www.jsqmd.com/news/38633/

相关文章:

  • 2025年耙式真空干燥机优质厂家权威推荐榜单:耙式干燥机/ZB系列耙式真空干燥机/真空耙式干燥机源头厂家精选
  • 2025年庭院美化设计与花园设计标杆企业推荐:北京陌上景观工程,首层庭院设计/屋顶庭院设计/别墅庭院设计/定义个性化户外生活新标准
  • 【原理到实战】实验异质性分析
  • 习题解析之:输出 n 以内的所有素数
  • Docker最新学习
  • 最近学习到的一些基础知识
  • 新手入门常用的Dos命令
  • 2025年重庆吊装搬运公司权威推荐榜单:工厂搬迁/搬运/搬运设备源头公司精选
  • 基于LMS与RLS的自适应回声消除滤波
  • 2025年气密门窗实力厂家权威推荐榜单:折叠门窗/折叠门窗/断桥铝门窗源头厂家精选
  • 到底是用vue2还是vue3好?
  • 基于MATLAB的B样条曲面绘制
  • 2025 年 11 月建筑木方厂家推荐排行榜,建筑木方/模板木方/桥梁木方/樟松工地木方/防腐建筑木方/烘干建筑木方/松木木方/辐射松木方/铁杉木方公司推荐
  • 2025 年 11 月防腐木厂家推荐排行榜,碳化防腐木/花旗防腐木/南方松防腐木/辐射松防腐木/菠萝格防腐木,室内装修与建筑防腐木公司推荐
  • 动态规划精进篇:当终点在“世界之外”——出界的路径数 - 教程
  • 补题若干(5)
  • 分享工具
  • 避免在C#循环中使用await 改用WhenAll - 尼古拉
  • Go Web 编程快速入门 02 - 认识 net/http 与 Handler 接口 - 实践
  • P12213 [蓝桥杯 2023 国 Python B] 最长回文前后缀 题解 字符串哈希+二分
  • 贺州西林瓶灌装轧盖机洁净车间防二次污染要点
  • 简单配置一下下VScode
  • 智能充气泵方案:充气泵pcba功能结构组成
  • 人跟人的唯一差距就是勇气和执行力 - Leone
  • 555定时器-2. 单稳态多谐振荡器配置
  • 习题解析之:最大素数
  • mybatis-plus Wrappers相关Api
  • 2025年北京工程咨询合作机构权威推荐榜单:造价咨询/工程咨询服务/工程造价咨询源头机构精选
  • 视频融合平台EasyCVR:云台控制与语音对讲赋能远程交互式视频监控新场景
  • 基于CCS开发环境实现DSP RS485总线数据收发