当前位置: 首页 > news >正文

学习率、超参数、模型集成和迁移学习

学习率调度

学习率(learning rate)可能是大多数深度学习模型中是最重要的超参数。如果learning rate太大,则损失会迅速增大,模型无法收敛;如果learning rate太小,则训练过程会非常缓慢,甚至可能陷入局部最优解。我们希望learning rate能先大后小,有助于模型收敛。
img

在训练过程中选择不同机制来改变学习率的方法被称为学习率调度器(learning rate scheduler)。

逐步降低(step schedule)

一开始以相对高的学习率训练,然后在优化过程中的特定时间点将学习率跳到一个更低的值。下图中每30个epoch将学习率降低为原来的0.1倍。
img
这样做的缺点是,引入了新的超参数,我们需要决定何时降低学习率以及降低多少。

余弦衰退(cosine)

这个方法不再选择特定时间点,而是直接带入公式,算出每个epoch的学习率是多少。
余弦衰退只有两个超参数:初始学习率和总训练epoch数。这使得余弦衰退比之前的阶梯式步长衰退更易调整。
img

其他

简单线性衰退(常用于大规模NLP)、逆平方根调度
img

最常用的策略其实还是设置一个 learning rate 常量。很多人在训练神经网络时过早调节学习率,但这其实是相对后期才干的事情。像是RMS、Adam等,用常量学习率就能取得不错的效果。

早停

一个模型训练多久?
一个常见的做法是监控验证集上的性能,并在性能不再提升时停止训练。这种方法被称为早停(Early Stopping)。
img

超参数选择

网格搜索(grid search):为每个超参数选择几个值(一般是对数线性的), 然后排列组合全试一遍。
img

随机搜索(random search):为每个超参数划一个选择区间, 每次在区间内随机试一个组合
很多时候我们不知道哪个超参数对模型影响更大,随机搜索能更有效地探索超参数空间。
img

选择超参数的步骤

  1. 检查初始损失
  2. 在某小样本上关闭正则化,使其过拟合
  3. 寻找合适的学习率,使得loss快速下降
  4. 在一个较小超参数网格(每个参数 2~3 个)上进行网格搜索, 训练 1~5 个epoch。
  5. 调整超参数网格,
  6. 观察训练曲线,不同的曲线形状可能暗含一些超参数问题
  7. 返回第5步,直到满意为止。
    img
    img
    img
    img
    img
    img

训练之后

模型集成

训练多个独立的模型,在测试时选择他们预测概率的平均值。准确率大约能提高 1% ~ 2%。
当然,大多数时候不使用多个独立的模型,而是使用多个模型在训练时的快照。(这种策略的学习率调整是周期性的,很怪?)
img
同时,也不再使用实际的参数向量,而是在测试时选择模型参数的运行平均值,这被称为Polyak Averaging。
img

迁移学习

迁移学习(Transfer learning)是指将一个在大规模数据集上预训练的模型应用于另一个相关任务的过程。预训练模型已经学会了从数据中提取有用的特征,这些特征可以在新的任务中被利用,从而加速训练并提高性能。
迁移学习在CV领域也已非常重要。以CNN为例:
现在大型数据集上(如ImageNet)预训练模型,去除最后的全连接层,自己训练一个线性分类器接在这个模型上,用于小数据集。
img
如果是更大的数据集,我们也可以微调(fine-tune)。通常学习力调到原始的1/10。
img
迁移学习可以很大程度上减少训练的成本
总结:
img

http://www.jsqmd.com/news/345735/

相关文章:

  • 厦大的大模型团队最新报告:大模型概念、技术与应用实践(附140页PPT下载)
  • 告别低效繁琐!降AI率网站 千笔·专业降AIGC智能体 VS speedai
  • SpringBoot4.0新特性-Null-safety消灭空指针
  • 分析恒博通讯设备公司 旗下产品价格贵不贵 - 工业品网
  • 还不知道怎么学大模型?别再闷头瞎学了,看我五分钟,顶你两小时(附教程)
  • 从LLM到运筹优化:四大AI模型分类与应用场景全解析
  • 计算机毕业设计之springboot大学生综测可视化系统
  • 开题报告 springboot和vue-基于SSH框架的寄卖管理系统的设计与实现
  • 2026年热门的吊牌灯箱,停车场吊牌灯箱,商场吊牌灯箱厂家用户好评榜单 - 品牌鉴赏师
  • 粉末电导率测试与电阻率原理、方法及应用
  • 开题报告 springboot和vue-天气预报软件
  • 2026跨境电商适配园区推荐:揭秘五大孵化与办公优选地 - 品牌2025
  • CAXA二次开发
  • 建议收藏!AI大模型时代的高薪机会:10大岗位薪资与职业发展指南(附学习资源)_AI大模型的前十热门岗位薪资盘点!
  • nginx 编译选项说明
  • 本周更新|优化及缺陷修复
  • 基于云计算的实习管理系统设计与实现
  • 2026年诚信的精神堡垒标识牌,户外精神堡垒厂家选购参考汇总 - 品牌鉴赏师
  • 浙江自动锁螺丝机推荐,宏海机器人的性价比怎么样? - myqiye
  • 2026跨境电商办公室租赁怎么选不踩坑?关键指标+注意事项,5大优质产业园推荐 - 品牌2025
  • 基于云计算的微课教学资源共享平台建设_开题报告 springboot和vue_
  • 2026注浆机;灌浆泵;湿喷机;喷浆机;喷涂机行业测评:五家企业综合对比及评价 - 深度智识库
  • 2026年山东临沂树脂瓦厂家专业推荐:波浪型树脂瓦、FRP采光瓦、‌防腐树脂瓦、‌合成树脂瓦厂家、ASA合成树脂瓦 - 海棠依旧大
  • 基于Web的求职招聘系统的设计与实现开题报告 springboot和vue
  • 2026年好的3C认证办理服务公司排名及服务特色盘点 - 工业品牌热点
  • 求推荐靠谱厨师学校,沈阳新东方火锅专业口碑排名 - 工业推荐榜
  • 2026年法兰V型球阀制造企业排名,前十名揭晓 - mypinpai
  • 创业第一步,办公室别踩坑!2026跨境电商孵化园区挑选秘籍与5大推荐 - 品牌2025
  • 2026年天津性价比高的五金批发零售公司盘点,选五金批发零售服务哪家好 - 工业品网
  • 2026国产营养秤品牌盘点及选购指南 - 一搜百应