当前位置：首页 > news >正文

深度学习 —— 梯度下降法的优化方法

news 2026/6/25 20:44:56

一、梯度下降法回顾

二、梯度下降法的缺点

三、如何选择优化方法

1.了解 —— 指数移动加权平局

1.1 公式

1.2 图例说明

1.3 结论

2.优化方法：

2.1 图解

2.2 如何选择优化方法

2.3 对应API

动量法 Momentum

AdaGrad 自适应学习率

RMSprop 自适应学习率

Adam 自适应矩估计

AdamW 自适应矩估计

2.4 梯度下降法优化方法总结

一、梯度下降法回顾

W新 = W旧 - 学习率 * 梯度

假设学习率 lr = 0.1.

① 6.4 = 8.0 - 0.1 * 16.0

② 5.12 = 6.4 - 0.1 * 12.8

③ 4.01 = 5.12 - 0.1 * 10.24

...

二、梯度下降法的缺点

1.碰到平缓区间，梯度值较小，参数优化变慢

2.碰到”鞍点“，梯度为0，参数无法优化

3.碰到局部最小值，参数不是最优。无法跳出

比如 y = x ^ 3 。x = 0的时候就是”鞍点“ 导数为0

三、如何选择优化方法

1.了解 ——指数移动加权平局

1.1 公式

1.2 图例说明

β = beta 一组散点天气数据

beta = 0 beta = 0.5

beta = 0.9 beta = 1

1.3 结论

1.对于指数移动加权平均值

β 值（调节系数）越大，移动加权平均值越平缓，越考虑历史数据。

β 值越小，移动加权平均值越接近当前数据。

2.特例：β 值 = 0，就是当前数据的原始值

β 值 = 1，就是第一天的初始值

2.优化方法：

2.1 图解

2.2 如何选择优化方法

* Adam / AdamW (推荐) -> RMSprop -> 动量法 Momentum -> 原始SGD，AdaGrad （不建议）

对比 Adam 和 AdamW

Adam：

① 同时调整学习率和梯度

② 使用梯度一阶矩来调整梯度，二阶矩来调整学习率

AdamW：

① Adam的优化版

② 解耦了权重衰减

③ 原始Adam直接在梯度中添加了权重衰减项，使得调整梯度和调整学习率藕合在一起，会造成模型训练后期不稳定。

④ AdaW 使用原始梯度，在更新参数时直接添加权重衰减项目，解耦了调整梯度和调整学习率

2.3 对应API

# 优化器模块，实现梯度下降法以及梯度下降的优化方法 import torch.optim as optim

动量法 Momentum

optim.SGD([w],lr=0.01,momentum=0.95)

AdaGrad 自适应学习率

optim.Adagrad([w],lr=0.01)

RMSprop 自适应学习率

optim.RMSprop([w],lr=0.01)

Adam 自适应矩估计

optim.Adam([w],lr=0.01)

AdamW 自适应矩估计

optim.AdamW([w],lr=0.01)

2.4梯度下降法优化方法总结

1. SGD原始梯度下降法：optim.SGD, 使用当前梯度直接更新参数，用于凸优化问题，容易陷入局部最优解

2. 动量法Momentum: optim.SGD(momentum=0.9), 引入动量概念，利用历史梯度信息，加速收敛

3. AdaGrad: optim.Adagrad, 自动调整学习率，学习率下降过快过早，导致模型更新慢

4. RMSprop: optim.RMSprop, 自动调整学习率，对AdaGrad的改进

5. Adam: optim.Adam, 结合动量法和RMSprop，同时调整学习率和梯度，训练稳定

6. AdamW: optim.AdamW, 对Adam的改进，解决权重衰减问题，推荐使用

查看全文

http://www.jsqmd.com/news/680803/

百度网盘直连解析工具：突破限速限制，实现全速下载的完整指南

别再为CH343的VDD5和V3引脚头疼了！手把手教你搞定USB转串口芯片的电源连接

Scarab：基于Avalonia框架的空洞骑士模组管理解决方案

别光看理论了！用PyTorch手把手实现一个Actor-Critic模型（附完整代码）

【微软官方未公开的EF Core 10向量陷阱】：为什么AsNoTracking()会导致相似度计算偏移？

拯救者笔记本终极优化指南：Lenovo Legion Toolkit深度探索与实战应用

2026年市面上质量好的中走丝机床品牌推荐榜 - 品牌排行榜

嘉兴庭院花园设计施工公司推荐榜单 - 品牌排行榜

告别低效！用Python+SciPy从零实现多相滤波信道化（附完整代码与避坑指南）

Windows PDF处理神器：Poppler零依赖安装指南

异步电路后端实现中的CDC签核：从约束到收敛的实战指南

港科大：揭示AI图文模型存在伪统一性根本缺陷能力突破

2026电压力锅哪个牌子最好最安全？安全与性能深度解析 - 品牌排行榜

复古收音机技术‘复活’记：用2SK241 JFET打造150kHz高灵敏度接收前端

Python3 模块精讲：StringIO —— 内存字符串 IO 全解与实战

告别裸机：在S32K3上基于RTOS（如FreeRTOS）构建稳定的FlexCAN多任务通信框架

杭州庭院设计施工公司排行及服务特色解析 - 品牌排行榜

从洪水预测到服务器监控：极值理论EVT在SRE运维中的‘降本增效’实践

杭州屋顶花园设计施工企业推荐及服务解析 - 品牌排行榜

慕尼黑大学团队：AI终于学会像人类一样“推演未来“

XUnity.AutoTranslator完整指南：5分钟实现Unity游戏多语言翻译

AudioSeal Pixel Studio快速部署：阿里云ECS+NGINX反向代理的公网访问配置

常州国德液压性价比如何，反馈情况好不好 - myqiye

XUnity.AutoTranslator深度解析：架构设计与高级应用指南

聊聊2026年鼎成钙业实力怎么样，全国高性价比碳酸钙企业推荐 - 工业品牌热点

康奈尔大学等发现：用更少的题目，反而能训练出更好的AI提示词

二零二六年行业内质量好的线切割机床制造厂家有哪些 - 品牌排行榜

如何用Bili2text将B站视频快速转为文字稿：实用指南

fatal error C1007: 无法识别的标志“-typedil”(在“p2”中)

深聊鼎成钙业规模、团队专业性及未来发展趋势，全国客户靠谱之选？ - 工业推荐榜

一、梯度下降法 回顾

二、梯度下降法的缺点

三、如何选择优化方法

1.了解 ——指数移动加权平局

1.1 公式

1.2 图例说明

1.3 结论

2.优化方法：

2.1 图解

2.2 如何选择优化方法

2.3 对应API

动量法 Momentum

AdaGrad 自适应学习率

RMSprop 自适应学习率

Adam 自适应矩估计

AdamW 自适应矩估计

2.4梯度下降法优化方法总结

相关文章：

一、梯度下降法回顾