当前位置: 首页 > news >正文

SiLU函数

SiLU 函数(Sigmoid Linear Unit,Sigmoid 加权线性单元)是深度学习中一种非常流行的激活函数,也被称为Swish(当参数 β=1 时)。

它在 2017 年由 Google 研究团队提出(论文《Searching for Activation Functions》),后来在大量现代模型中成为默认或高性能选择之一。

1. 数学公式

SiLU(x) = x × σ(x)

其中 σ(x) 是标准的logistic sigmoid函数:

σ(x) = 1 / (1 + e⁻ˣ)

所以完整写法是:

SiLU(x) = x / (1 + e⁻ˣ)

  • 当 β ≠ 1 时,更广义的形式叫 Swish:x × σ(βx)
  • 但在绝大多数框架和论文中,SiLU 特指 β=1 的情况(PyTorch、TensorFlow/Keras、Ultralytics YOLO 等都这样定义)

2. 主要特点(对比 ReLU / GELU)

特性SiLU (Swish β=1)ReLUGELU实际影响
定义域(-∞, +∞) → ≈(-0.278, +∞)(-∞, +∞) → [0, +∞)(-∞, +∞) → ≈(-0.17, +∞)SiLU 允许少量负值输出
是否单调递增非单调(在 x≈-1.278 附近有轻微凹陷)单调递增单调递增非单调性有时带来更好表达能力
平滑性处处可导(C∞ 光滑)x=0 处不可导处处光滑梯度更稳定,避免震荡
计算开销中等(含 exp 和除法)极低(max(0,x))中等偏高(含 erf 或近似)现代 GPU 上几乎无感
负值区行为小负值(最负 ≈ -0.278)恒为 0(dying ReLU)小负值(更接近 0)缓解 dying neuron 问题
正值区行为接近线性(x 很大时 ≈ x)严格线性接近线性但稍有压缩保留梯度信息好
梯度消失风险低(负区梯度不为 0)中(负区梯度=0)很低深层网络更友好

函数图像关键点(文字描述,实际看图更直观):

  • x → +∞:SiLU(x) ≈ x(线性)
  • x = 0:SiLU(0) = 0
  • x → -∞:SiLU(x) → 0(从下方缓慢接近)
  • 最小值 ≈ -0.278 在 x ≈ -1.278 处(轻微“下凹”)
  • 整体比 ReLU 更平滑,比 sigmoid 更“线性”

3. 为什么 SiLU 这么受欢迎?(2025–2026 视角)

  • 比 ReLU 好:没有 dying ReLU 问题,负值区仍有微弱梯度
  • 比 GELU 简单:计算更快(无 erf 函数),在很多实验中性能接近甚至略胜
  • 在 Transformer / CNN / 视觉大模型中表现优秀
    • YOLOv5 → YOLOv8 → YOLOv10/v11/v26 系列大量默认用 SiLU
    • EfficientNet、ConvNeXt、MobileNetV3 等经典 CNN 变体常用
    • Llama 系列、Grok、部分 Mistral 模型也用 Swish/SiLU 变体
  • 强化学习早期提出:2017 年 arXiv 论文就是在 RL 背景下提出的,后来扩散到监督学习

4. 常见框架中的实现(2026 现状)

  • PyTorchtorch.nn.SiLU()F.silu(x)(最常用)
  • TensorFlow / Kerastf.nn.swishtf.keras.activations.swish(等价于 SiLU)
  • JAX / Flaxjax.nn.swish
  • Ultralytics YOLO:默认激活就是 SiLU

代码示例(PyTorch):

importtorchimporttorch.nnasnn x=torch.tensor([-3.0,-1.0,0.0,1.0,3.0])silu=nn.SiLU()print(silu(x))# 输出大致:tensor([-0.0474, -0.2689, 0.0000, 0.7311, 2.8577])

5. 什么时候选 SiLU?

  • 优先选:现代 CNN、目标检测(YOLO)、高效模型、深度 Transformer、需要平衡性能和计算量的场景
  • 可以考虑 GELU:BERT、GPT 类纯 Transformer(GELU 理论上更“高斯”)
  • 可以回退 ReLU:极致移动端部署、模型已经很深但梯度爆炸不严重

一句话总结:

SiLU = “平滑版 ReLU + 少量负值泄漏 + 极简计算”
是 2020 年后视觉大模型和很多高效架构的“国民激活函数”之一。

如果你想看 SiLU / Swish / GELU / ReLU 的对比图像,或者想知道在具体模型(如 YOLOv11、Llama)中为什么选它,可以继续问,我可以进一步展开!

http://www.jsqmd.com/news/428773/

相关文章:

  • 强烈安利 8个一键生成论文工具:继续教育毕业论文写作全攻略
  • PCB厚板评测:大电流高精度,谁才是载流之王?
  • 2026年重庆展厅设计公司五大权威推荐:格莱林领衔,数字展厅设计赋能品牌新高度 - 深度智识库
  • windows系统缺失DLL文件下载方法
  • 2026年钛酸正丁酯公司推荐榜:TOP排名榜权威发布 - 品牌推荐用户报道者
  • AI提示词(Prompt)从入门到精通,非常详细,收藏这一篇就够了!!!
  • 定稿前必看!AI论文网站 千笔 VS 笔捷Ai,专科生专属推荐!
  • 深入理解 lt; 和 gt;:HTML 实体转义的核心指南!!!
  • Jenkins部署与CICD流水线配置:自动构建发布到k8s集群
  • 横评后发现!人气爆表的降AI率软件 —— 千笔·降AIGC助手
  • 必看!2026年度二次元测量仪公司推荐榜单:五大好用的二次元测量仪制造厂家对比 - 睿易优选
  • 横评后发现 10个降AIGC平台:本科生降AI率必看测评与推荐
  • Composer 生成的 autoload.php 注册了一个 SPL 自动加载函数 的庖丁解牛
  • 格式总出错?10个AI论文软件测评:专科生毕业论文+开题报告写作神器推荐
  • photoshop2026最新版27.4免费安装下载教程来了
  • Rust与WebAssembly深度实战——将高性能Rust代码运行在浏览器与Node.js
  • break与continue的区别
  • P14990 马赛克 - Link
  • ubuntu系统部署jenkins
  • 封边机品牌推荐|品牌干货 + 避坑指南 - 星辉数控
  • 干货合集:10个降AI率网站测评,专科生必看的降AI率工具推荐
  • 深入浅出:RS-232 和 RS-485 串口通信的区别与由来
  • 2026过滤分离性能检测验证哪家好?专业机构推荐 - 品牌排行榜
  • 闲置天猫超市卡别浪费!3种便捷回收方法,轻松变现不踩坑 - 京回收小程序
  • 谷歌优化哪个企业口碑好?深耕23年的百站网络给出满意答案 - 品牌推荐大师
  • CLAUDE.md内容的一些实践总结
  • 2026四川幕墙玻璃更换优质服务商推荐指南 - 优质品牌商家
  • continue
  • 2026年工控原件回收厂家推荐:金南磊机电回收中心专业供应西门子/AB罗克韦尔/变频器/模块/触摸屏回收 - 品牌推荐官
  • 跑论文的测试代码创建了一个本地分支test-fai