当前位置: 首页 > news >正文

深度学习03 -来源于李宏毅老师的课堂

本人从零开始学习,希望各位多多批评指正

如果training的loss太大可能是出现了什么问题

训练Loss大的两种主要原因

一、Model Bias(模型偏差/模型能力不足)

含义:模型本身"能力不够",无法很好地拟合数据

简单说就是模型太简单了,即使训练到最优,也无法达到低loss。

原因:

  • 模型结构太简单(层数少、参数少)

  • 网络表达能力不足

  • 模型设计不合理

解决方法:

  • 增加模型复杂度(加深网络、增加宽度)

  • 使用更强大的模型架构

  • 增加特征

二、Optimization Issue(优化问题) ---->例如gradient descent梯度下降

含义:模型有能力,但优化过程"卡住了",没找到最优解

模型本身足够强大,但训练过程中无法找到好的参数。

类比理解:

  • 大学生做小学题,能力够,但被蒙住眼睛瞎走

  • 能力够,但找不到正确方向

原因:

  • 学习率设置不当(太大震荡、太小收敛慢)

  • 陷入局部最优或鞍点

  • 梯度消失/爆炸

  • 批次大小不合适

解决方法:

  • 调整学习率

  • 使用更好的优化器(Adam、AdamW)

  • 使用Batch Normalization

  • 调整初始化策略

  • 要判断是不是optimization的问题,可以用一个比较小的model,甚至不是深度学习的,先看一看能得到什么样的note,如果说你用了两个layer,大的那个甚至都不能把小的压过去,那说明是optimization的问题,比如1layer 是0.2 2layer是0.18 ....5layer是0.34这种情况

如何判断是哪种问题?

┌────────────┬──────────────────────────────┬────────────────────┐ │ 方法 │ Model Bias │ Optimization Issue │ ├────────────┼──────────────────────────────┼────────────────────┤ │ 增大模型后 │ loss明显下降 │ loss几乎不变 │ ├────────────┼──────────────────────────────┼────────────────────┤ │ 现象 │ loss下降但趋于一个较高值 │ loss卡住不动或震荡 │ ├────────────┼──────────────────────────────┼────────────────────┤ │ 检查 │ 看模型是否能在训练集上过拟合 │ 看梯度是否正常更新 │ └────────────┴──────────────────────────────┴────────────────────┘

此时再看testingdata loss怎么样

如果training的loss小,testing的loss大才是overfitting

如何解决呢,第一个很有效的方法是增加你的训练资料,但是补充训练资料是一个比较浪费时间的方法。

第二个方法是data augmentation,通过自己的理解设计出新的资料 :比如上下颠倒,放缩分辨率,倾斜一个角度等等。

除了解决资料的方法还有什么解法呢:不要让你的模型有很大的弹性,给他一些限制,比如对选择方向上的限制,因为选择的方案有限,所以可能很快的就能选到比较接近的function,写less parameter,但是不能限制过大

其他的方法?1.less feature 选用少的东西,比如给的是三天的资料然后选择用两天 2.early stopping 早停 3.当使用过于复杂的model时,也有可能发生到达某个地方忽然loss暴涨

如何分training set和validation set呢

考虑N-fold cross validation,切成n等份,随机分1份val剩下n-1份train,或者以其他比例划分。

http://www.jsqmd.com/news/536339/

相关文章:

  • OpenClaw智能客服原型:用nanobot镜像搭建QQ问答机器人
  • 【2025】加入 uniapp 的一年
  • 深入解析ChatTTS Wheel文件:原理、实现与生产环境最佳实践
  • OpenCode AI编程助手:从认知到实践的全方位技术指南
  • 突破ChatGPT地区限制:AI辅助开发实战指南
  • 自动化周报生成:OpenClaw+nanobot聚合多平台工作痕迹
  • 成本警报系统:监控OpenClaw+Qwen3.5-9B的Token消耗突破阈值
  • OpenClaw邮件智能处理:Qwen3-32B-Chat分类归档与自动回复
  • 2026内衬聚氨酯靠谱供应商推荐指南:耐磨防腐管道/聚氨酯板/钢衬聚氨酯复合管/钢衬聚氨酯弯头/钢衬聚氨酯管道/选择指南 - 优质品牌商家
  • 基于vue的班级信息管理系统[vue]-计算机毕业设计源码+LW文档
  • 保健用品企业消字号备案及代工全链条服务:祖传秘方申请批号/秘方委托生产、备案电话/秘方申报认证机构电话/选择指南 - 优质品牌商家
  • 2023B卷,最长和为目标值的子序列
  • 解锁AI创意:借助快马平台的多模型能力将你的AI应用idea快速实现
  • NumPy 函数手册:文件读写
  • ChatGPT提示取消阻止实战:AI辅助开发中的高效调试技巧
  • ESP32开发调试
  • A59F扩音防啸叫模组-本地会议与扩音专属
  • 基于用户行为的Chatbot反馈学习:提升对话效率的实战指南
  • 数控机床机械手控制系统:可靠配置与高效运行要点
  • OpenClaw模型微调:优化GLM-4.7-Flash任务执行效果
  • 全国多地设备售后如何统筹?“售后管理系统”一键打通地域壁垒
  • 2026遵义玻璃隔断制造商官方电话公布,在贵州做玻璃隔断服务哪家靠谱? - 精选优质企业推荐榜
  • namespace
  • 西门子840D sl数控系统电源风扇单元(6SL3982-5CX10-0AA1)功能详解
  • 跨网段通讯神器|SG-NAT-210 工业 NAT 网关,不改设备一键通联
  • 《Linux 是怎样工作的》第 2 章:用户模式实现的功能
  • Mozilla开发者推出AI智能体知识共享平台cq解决编程效率问题
  • FONA SIM808嵌入式AT驱动库深度解析与工业实践
  • Vue + Java + Python 打造企业级 AI 知识库与任务分发系统(RAG架构全解析)
  • CubeCell蜂鸣器高精度PWM音调生成库CCTone