当前位置: 首页 > news >正文

SGD 、Momentum 、Adam

深度学习中最核心的三种优化算法或优化策略:SGD (随机梯度下降)Momentum (动量) 策略,以及 Adam (自适应矩估计) 优化器。

下面是它们的核心原理、优势和关系总结:


优化器/策略总结对比

名称 类型 核心机制 主要解决的问题
SGD 基础优化器 仅依赖当前小批量数据的梯度来更新参数。 传统梯度下降 (BGD) 的计算效率问题。
Momentum 加速策略 (通常结合 SGD) 引入历史梯度的积累项(惯性)。 SGD 的震荡和在平坦区域收敛慢的问题。
Adam 自适应学习率优化器 结合 动量 (m_t) 和 自适应学习率 (v_t)。 所有参数的学习率固定且需要手动调优的问题。

详细介绍与关系

1. SGD (随机梯度下降)

  • 核心: 每次迭代(Step)只使用一小批(Mini-Batch)样本来近似整个数据集的梯度 $g_t$。

  • 更新: 沿着当前梯度的反方向移动。
    image

  • 缺点:

    • 高方差/震荡: 梯度 $g_t$ 的估计噪声大,导致优化路径在损失曲面上剧烈震荡。
    • 鞍点停滞: 在损失函数曲面的平坦区域或梯度接近零的鞍点处,优化速度极慢。

2. Momentum (动量)

  • 核心: 为 SGD 引入惯性。通过计算历史梯度的指数加权平均 $v_t$ 来指导更新方向。

  • 机制:
    image

  • 作用:

    • 加速: 在方向一致时,动量积累,加速收敛。
    • 平滑: 抵消随机的小幅震荡,使更新路径更平滑、更直接。
    • 跳出: 帮助优化过程“冲过”浅层的局部最小值和鞍点。

3. Adam (自适应矩估计)

  • 核心: 结合动量 (一阶矩 $m_t$) 和 RMSProp 的自适应性 (二阶矩 $v_t$)。它为每个参数赋予独立的、动态调整的学习率

  • 机制:
    image

  • 优势:

    • 高效: 结合了动量的加速和自适应性的稳定性。
    • 易用: 通常不需要仔细调整学习率(只需设定全局),在大多数任务中都能快速获得良好结果。

总结: SGD 是基础;Momentum 解决了 SGD 的收敛震荡问题;Adam 则在 Momentum 基础上,解决了所有参数共享一个固定学习率的限制,实现了更快的收敛和更好的通用性。

http://www.jsqmd.com/news/47770/

相关文章:

  • P22_损失函数与反向传播
  • 团队作业3-需求改进系统设计
  • 完整教程:Opencv(一): 用Opencv了解图像
  • docker compose插件安装
  • 完整教程:树与二叉树的奥秘全解析
  • C#扩展成员全面解析:从方法到属性的演进
  • 多机elasticsearch集群部署,超详细教程
  • DeepSeek 提取 交易所网站核心500词汇(名词与术语)
  • [251122 678mAh] 模拟赛没破防有感 3.0
  • 白银市一对一培训机构推荐,2026年最新课外辅导全面测评口碑排名榜
  • 天水市一对一培训机构推荐,2026最新课外辅导机构口碑深度测评排名榜
  • 嘉峪关市一对一培训机构推荐,2026年最新课外补习辅导口碑排名
  • 2025 AI 教育培训权威推荐榜深度评测排名
  • 详细介绍:第七篇:匹配篇 | 怎么像做产品一样,为每个岗位“定制”你的简历?
  • hbuilder是否支持云端部署
  • 创建矩形并让矩形移动
  • 2025年稳定土搅拌站供应商权威推荐榜单:搅拌站回收/二手稳定土搅拌站/二手混凝土土搅拌站源头厂家精选
  • blender能量体全息化效果学习
  • 2025教育AI供应商TOP10权威评测:AI时代下的技术赋能与行业变革
  • 从组件的角度梳理微服务技术栈(1)
  • 树的直径、重心、中心 学习笔记
  • 三次单部电梯调度程序设计总结
  • 实用指南:零基础从头教学Linux(Day 54)
  • 2025年充气水上乐园设备权威推荐榜单:室内水上乐园设备/水上乐园滑梯/泳池造浪设备源头厂家精选
  • 完整教程:医疗领域DICOM特征提取工具类综合对比(2025.10更新版)
  • CS2撤回功能与市场经济的结合
  • 深入解析:带你了解STM32:WDG看门狗
  • 面向模块的综合技术之控制集优化(七) - 教程
  • FastAPI docker demo
  • 2025年铁氟龙膜源头厂家权威推荐榜单:特氟龙膜/PTFE膜/聚四氟乙烯膜源头厂家精选