当前位置: 首页 > news >正文

Adaptive Learning Rate(自适应学习率) - -一叶知秋

Adaptive Learning Rate(自适应学习率)

Adaptive Learning Rate(自适应学习率) 是指在模型训练过程中,学习率会根据参数更新的反馈自动调整,而不是使用一个固定值。其核心思想是:
👉 不同参数或不同训练阶段,最优的学习率应该不同。

当 Loss 不在下降,Gradient 不一定是 0

而是梯度太大,在最低的 Loss 中徘徊image-20251016105805233

不同的参数需要不同的学习速率

different parameters needs different learning rate

在深度学习中,模型的各层参数承担的角色不同,它们的梯度分布、敏感度、训练目标往往不一样。
如果所有参数都用同一个学习率,会导致:

  • 有的参数更新太快,导致训练不稳定;
  • 有的参数更新太慢,导致收敛变慢甚至停滞。

因此,针对不同参数设定不同学习率,可以让模型收敛更平稳、更快。

Root Mean Square

i 是第 i 个参数,上角标是第几次更新

平方和相加取平均在开根号

image-20251020174027543

RMSProp

加上一个参数控制权重

image-20251020174608401

目前常用的

image-20251020174829143

横向累计了很多,当累计到一定程度的时候,就暴走了产生纵向的

image-20251020175510545

解决上面的办法:加入 $n^t$,随着时间 $n^t$ 逐渐变小,学习率变小

image-20251020175543403

Warm Up

黑科技(目前没有权威解释):先增加,再减小

其中一个解释:先开始很小探索周围,逐渐扩大,然后再慢慢变小收到 Loss 低点

image-20251020180424905

http://www.jsqmd.com/news/17805/

相关文章:

  • 新学期每日总结(第12天)
  • 17 线程的创建
  • 2025.10.20总结 - A
  • 一般公共预算收入 + 全国政府性基金收入
  • 从C10K到Reactor:事件驱动,如何重塑高并发服务器的网络架构
  • AI助力可再生能源系统优化研究
  • 结对项目:小学四则运算题目生成器
  • 数据范围
  • CF2107E Ain and Apple Tree
  • P14262 [ROI 2015 Day1] 自动好友
  • 傻瓜式处理kauditd0病毒程序记录
  • win10 升级 win11 后时间更新失败
  • 软件工程学习日志2025.10.20
  • P14254 分割(树上计数问题) 题解
  • 完整教程:开源 C++ QT QML 开发(一)基本介绍
  • 102302104刘璇综合实践作业任务一:智能购物平台用户需求调研分析报告——基于195份问卷的用户痛点挖掘
  • 软件工程第二次团队作业
  • Hands on Deep Learning Chapter 3 线性神经网络
  • 超越技术范畴:低代码如何重塑企业数字文化
  • 好用的网址
  • 【C++实战(71)】解锁C++音视频编写:FFmpeg从入门到实战
  • 20251020
  • 低代码赋能业务创新:打破数字鸿沟,释放业务潜能
  • 【大模型】大模型训练的几个不同阶段
  • 详细介绍:1、手把手教你入门设计半桥LLC开关电源设计,LLC谐振腔器件计算
  • 十六天
  • 10/20/2025杂题 关于在线性时间内求解低次多项式的幂
  • 歌手与模特儿
  • 20251019
  • 计算机毕业设计 基于EChants的海洋气象数据可视化平台设计与建立 Python 大数据毕业设计 Hadoop毕业设计选题【附源码+文档报告+安装调试】