当前位置：首页 > news >正文

权重衰减参数的工作原理，以及对训练的影响

news 2026/3/27 0:29:40

提高权重衰减：

训练时，模型不仅要把预测做准，还要让权重值尽可能的小，因为大权重会导致模型对输入的微小变化特别敏感（比如把背景纹理也当成特征），权重衰减限制了模型的复杂度，防止某些特征被过度放大，从而减少过拟合。

1.没有权重衰减的标准更新 (SGD)

标准的梯度下降更新公式如下：

Wnew=W-η⋅∂L∂W
就是W新=W旧-学习率*梯度

W是当前的权重（当前位置）。
η是学习率（步长）。
∂L∂W是损失函数对权重的梯度（下坡的方向和陡峭程度）。

这个过程就像：你纯粹根据当前的坡度（梯度）往山下走一步。如果这一步让你走到了一个很深的坑里（过拟合），你就会一直待在里面，因为梯度把你拉向那里。

2.有权重衰减的更新 (SGD with L2 Regularization)

当引入权重衰减（L2正则化）后，损失函数变了，梯度也变了，最终的更新公式会演变成这样：

第一步：修改损失函数
我们不再只看预测准不准（原始损失L0），还要看权重本身大不大。

L=L0+λ2∑W2
L2正则化，

λ就是权重衰减系数（配置文件里那个 weight_decay 参数）。
∑W2是所有权重的平方和。

第二步：计算新梯度
现在对新损失函数L求梯度。根据求导法则，导数分为两部分：

∂L∂W=∂L0∂W+λ⋅W

第一部分：原来的梯度（让你预测更准）。
第二部分：λ⋅W（这是关键！权重越大，这个惩罚项就越大）。

第三步：更新权重
把新梯度代入标准更新公式：

Wnew=W-η⋅(∂L0∂W+λ⋅W)

把括号拆开，我们可以看得更清楚：

Wnew=W-η⋅∂L0∂W-η⋅λ⋅W
Wnew=(1-η⋅λ)⋅W-η⋅∂L0∂W

3.直观理解这个更新过程

现在看最后这个公式Wnew=(1-η⋅λ)⋅W-η⋅∂L0∂W，逻辑就非常清晰了：

先衰减（收缩）：(1-η⋅λ)⋅W
- 在进行任何梯度下降之前，权重W首先被乘以一个小于1的系数1-η⋅λ。
- 假设η=0.01，λ=0.0005，那么这个系数就是1-0.01×0.0005=0.999995。
- 这意味着，每一次更新，不管梯度方向如何，权重都会被强制“缩小”一点点。这就是“权重衰减”这个名字的由来——权重在每次迭代中都会自然地向零衰减。
再修正：-η⋅∂L0∂W
- 在衰减的基础上，再减去刚才算出的原始梯度项，目的是为了让模型在变小的同时，尽量把预测做对。

这样的话，就有一个疑问，那如果最优权重是大于我们当前的权重的，那岂不是永远也到不了最优权重的现实，这就要看损失函数梯度的了。

回到上面公式：

Wnew=(1-ηλ)W-η∂L0∂W

第一项(1-ηλ)W：每次都把权重缩小一点（乘以略小于1的系数）。把权重往小的方向拉。

第二项-η∂L0∂W：根据原始误差的梯度调整权重，目的是减小预测误差。如果当前权重小于最优值，那么梯度 ∂L0∂W通常是负的（因为增加权重能降低误差），所以第二项变成正数（-η×负=+正），推动权重的增大。简单来说的话，我们可以想象一个坐标系，X轴是权重，Y轴是损失，如果我们在最优权重的时候，那么损失应该是最小的，小于最优权重或者大于最优权重都会导致损失上升，重点来了，如果我们的当前权重是小于最优权重的话，那么损失函数就会变大，偏离最小的损失点，那从当前权重到最优权重这一段距离，损失函数是减少的，梯度就应该是负数，梯度为负数再×上公式前面的负号，总体为正，所以，即使(1-η⋅λ)⋅W会让权重一直减小，但是后面的修正函数，会保证权重不偏离正确方向，最终的权重变化是“缩小”与“增大”的拔河比赛。如果当前权重远小于平衡点，增大的力量会超过缩小的力量，权重就会净增长，而不是一直变小。