当前位置: 首页 > news >正文

权重衰减参数的工作原理,以及对训练的影响

提高权重衰减:

训练时,模型不仅要把预测做准,还要让权重值尽可能的小,因为大权重会导致模型对输入的微小变化特别敏感(比如把背景纹理也当成特征),权重衰减限制了模型的复杂度,防止某些特征被过度放大,从而减少过拟合。

1.没有权重衰减的标准更新 (SGD)

标准的梯度下降更新公式如下:

Wnew=W-η⋅LW
就是W新=W旧-学习率*梯度

  • W是当前的权重(当前位置)。
  • η是学习率(步长)。
  • LW是损失函数对权重的梯度(下坡的方向和陡峭程度)。

这个过程就像:你纯粹根据当前的坡度(梯度)往山下走一步。如果这一步让你走到了一个很深的坑里(过拟合),你就会一直待在里面,因为梯度把你拉向那里。

2.有权重衰减的更新 (SGD with L2 Regularization)

当引入权重衰减(L2正则化)后,损失函数变了,梯度也变了,最终的更新公式会演变成这样:

第一步:修改损失函数
我们不再只看预测准不准(原始损失L0),还要看权重本身大不大。

L=L0+λ2W2
L2正则化,

  • λ就是权重衰减系数(配置文件里那个 weight_decay 参数)。
  • W2是所有权重的平方和。

第二步:计算新梯度
现在对新损失函数L求梯度。根据求导法则,导数分为两部分:

LW=L0W+λ⋅W

  • 第一部分:原来的梯度(让你预测更准)。
  • 第二部分:λ⋅W(这是关键!权重越大,这个惩罚项就越大)。

第三步:更新权重
把新梯度代入标准更新公式:

Wnew=W-η⋅(L0W+λ⋅W)

把括号拆开,我们可以看得更清楚:

Wnew=W-η⋅L0W-η⋅λ⋅W
Wnew=(1-η⋅λ)⋅W-η⋅L0W

3.直观理解这个更新过程

现在看最后这个公式Wnew=(1-η⋅λ)⋅W-η⋅L0W,逻辑就非常清晰了:

  1. 先衰减(收缩)(1-η⋅λ)⋅W
    • 在进行任何梯度下降之前,权重W首先被乘以一个小于1的系数1-η⋅λ
    • 假设η=0.01λ=0.0005,那么这个系数就是1-0.01×0.0005=0.999995
    • 这意味着,每一次更新,不管梯度方向如何,权重都会被强制“缩小”一点点。这就是“权重衰减”这个名字的由来——权重在每次迭代中都会自然地向零衰减。
  2. 再修正-η⋅L0W
    • 在衰减的基础上,再减去刚才算出的原始梯度项,目的是为了让模型在变小的同时,尽量把预测做对。

这样的话,就有一个疑问,那如果最优权重是大于我们当前的权重的,那岂不是永远也到不了最优权重的现实,这就要看损失函数梯度的了。

回到上面公式:

Wnew=(1-ηλ)W-ηL0W

第一项(1-ηλ)W:每次都把权重缩小一点(乘以略小于1的系数)。把权重往小的方向拉。

第二项-ηL0∂W:根据原始误差的梯度调整权重,目的是减小预测误差。如果当前权重小于最优值,那么梯度 ∂L0∂W通常是负的(因为增加权重能降低误差),所以第二项变成 正数(-η×负=+正),推动权重的增大。简单来说的话,我们可以想象一个坐标系,X轴是权重,Y轴是损失,如果我们在最优权重的时候,那么损失应该是最小的,小于最优权重或者大于最优权重都会导致损失上升,重点来了,如果我们的当前权重是小于最优权重的话,那么损失函数就会变大,偏离最小的损失点,那从当前权重到最优权重这一段距离,损失函数是减少的,梯度就应该是负数,梯度为负数再×上公式前面的负号,总体为正,所以,即使(1-η⋅λ)⋅W会让权重一直减小,但是后面的修正函数,会保证权重不偏离正确方向,最终的权重变化是“缩小”与“增大”的拔河比赛。如果当前权重远小于平衡点,增大的力量会超过缩小的力量,权重就会净增长,而不是一直变小。

过拟合往往表现为某些权重变得非常大,专门去记住某个特定的噪声样本。权重衰减的“先衰减”机制,会持续打压这些大权重,不让它们长得太大。

(内容由AI生成,只是添加了自己的理解,请仔细甄别,如果有错误欢迎指出探讨)

http://www.jsqmd.com/news/475920/

相关文章:

  • 阿里小云KWS模型与语音合成系统的无缝集成
  • 最小堆模拟
  • 2026别错过!AI论文写作软件 千笔·专业论文写作工具 VS 锐智 AI,专科生专属神器!
  • 两会热议AI安全:从被动防御到主动智能协同
  • MusePublic惊艳案例展示:看AI如何画出故事感时尚人像
  • Kettle8.2过滤记录组件实战:如何用Excel输出实现数据分流(附完整配置截图)
  • Qwen3-0.6B-FP8模型应用:Dify平台集成实战指南
  • 基于 YOLOv11 的智能化遥感图像目标检测
  • 具身智能实战:如何用AIBOX打造你的第一个无人化智能体(附避坑指南)
  • znew 命令超详细使用文档(.Z 转 .gz 格式转换工具)
  • Leather Dress Collection效果展示:Leather Beltbra MicroShorts微短裤皮革拉伸动态模拟
  • Cadence Virtuoso LVS检查全流程:数模混合版图从GDS导入到最终验证
  • Qt 实现三维坐标系的方法
  • CLIP-GmP-ViT-L-14实战落地:医疗影像报告关键词-检查图像语义检索
  • Windows进程通信实战:用CreateFileMapping实现内存共享(附完整代码示例)
  • Gemma-3-12b-it内容创作场景:自媒体图文选题+配图描述生成案例
  • 打开COMSOL时总想着搞点有意思的声场操控,这次咱们来折腾三维相控阵的声镊系统。实验室里那些悬浮的微粒子在声场里跳舞的样子,可比刷短视频带劲多了
  • MacOS新手必看:解决Python Tkinter报错‘No module named msilib’的完整指南
  • ISCTF2021
  • PROJECT MOGFACE辅助C语言学习:代码解释、调试与练习题生成
  • carsim simulink仿真,纯电动汽车Acc 自适应巡航 上层控制器 包括 mpc跟车...
  • 手动改写 vs AI工具降AI:效率和效果到底差多少?
  • 【MySQL开发】
  • 油车和电车标称续航500公里,两者不具可比性,电车有效续航可低至三成
  • Git系列一:git的下载与安装
  • 航空航天Web服务SpringBoot如何实现卫星数据大文件夹的秒传断点续传?
  • AIGlasses_for_navigation 高级教程:利用 ComfyUI 构建可视化导航工作流
  • AI 辅助开发实战:基于 Spring Boot 的 Java 电商系统毕设架构与提效指南
  • GLM-4-9B-Chat-1M实战案例:跨境电商产品说明书多语言自动校验与合规提示
  • 5分钟部署Qwen-Image-Edit-2509:体验用自然语言指令修改图片的乐趣