深度学习优化算法(二)—— SGD + Momentum + Nesterov(三十四)
1. 定位导航
第 33 篇讲了为什么训练困难(病态、鞍点、梯度爆炸)。本篇正式介绍解决方案的第一波——三个经典优化算法:
| 算法 | 关键思想 | 年代 |
|---|---|---|
| SGD | 随机梯度估计 + 学习率衰减 | 1951(Robbins-Monro) |
| Momentum | 累积梯度方向加速 | 1964(Polyak) |
| Nesterov | 先"前瞻"再算梯度 | 1983(Nesterov) |
这三个算法是 Adam/RMSProp 等现代优化器的基础——理解它们才能理解后面的进化。
2. SGD:标准随机梯度下降
2.1 算法
输入:学习率 ε_k, 初始参数 θ