当前位置：首页 > news >正文

深度学习03 -来源于李宏毅老师的课堂

news 2026/7/6 13:22:33

本人从零开始学习，希望各位多多批评指正

如果training的loss太大可能是出现了什么问题

训练Loss大的两种主要原因

一、Model Bias（模型偏差/模型能力不足）

含义：模型本身"能力不够"，无法很好地拟合数据

简单说就是模型太简单了，即使训练到最优，也无法达到低loss。

原因：

模型结构太简单（层数少、参数少）
网络表达能力不足
模型设计不合理

解决方法：

增加模型复杂度（加深网络、增加宽度）
使用更强大的模型架构
增加特征

二、Optimization Issue（优化问题） ---->例如gradient descent梯度下降

含义：模型有能力，但优化过程"卡住了"，没找到最优解

模型本身足够强大，但训练过程中无法找到好的参数。

类比理解：

大学生做小学题，能力够，但被蒙住眼睛瞎走
能力够，但找不到正确方向

原因：

学习率设置不当（太大震荡、太小收敛慢）
陷入局部最优或鞍点
梯度消失/爆炸
批次大小不合适

解决方法：

调整学习率
使用更好的优化器（Adam、AdamW）
使用Batch Normalization
调整初始化策略
要判断是不是optimization的问题，可以用一个比较小的model，甚至不是深度学习的，先看一看能得到什么样的note，如果说你用了两个layer，大的那个甚至都不能把小的压过去，那说明是optimization的问题，比如1layer 是0.2 2layer是0.18 ....5layer是0.34这种情况

如何判断是哪种问题？

┌────────────┬──────────────────────────────┬────────────────────┐ │ 方法 │ Model Bias │ Optimization Issue │ ├────────────┼──────────────────────────────┼────────────────────┤ │ 增大模型后 │ loss明显下降 │ loss几乎不变 │ ├────────────┼──────────────────────────────┼────────────────────┤ │ 现象 │ loss下降但趋于一个较高值 │ loss卡住不动或震荡 │ ├────────────┼──────────────────────────────┼────────────────────┤ │ 检查 │ 看模型是否能在训练集上过拟合 │ 看梯度是否正常更新 │ └────────────┴──────────────────────────────┴────────────────────┘