当前位置: 首页 > news >正文

详解模型训练原理(梯度下降法)

学习机器学习非常重要的一步就是弄清模型训练背后的原理。接下来我给大家详细讲一讲基于梯度下降法的模型训练过程。

在开始之前,先解释一下损失函数

训练样本输入模型后产生的输出值和(该样本的)真实值往往会有差异,损失函数就是用数学方式表示(衡量)差异多少的函数。通过损失函数计算出来的差异值就叫做损失(Loss)。损失函数是一个非负实值函数,通常用L(Y, f(x))来表示。通常损失函数衡量的是在整个训练样本空间上的整体损失。

比如均方差公式:

就是一个常见的损失函数。

首先,模型的训练过程可以表达为:对以参数为自变量的损失函数求最小值的过程

现在让我们来看一个例子:使用单参数模型:y = ax 拟合单样本点(1,1),即给定点(1,1),求通过该点的直线y = ax 的a的值*:

在机器学习中通常的做法是:以样本真实值和模型输出值之差的绝对值为损失函数,即:L = |1-a|

在样本空间中,这个值即是下图中红色虚线的距离:


现在要做的就是求该公式达到最小值时a的值;

让我们画出这个公式(L)的几何图像,即相当于把y= |a|向右移动1个单位:

从图中我们看出a=1时该函数取得最小值0。那么计算机如何求这个a的值呢?

在机器学习中使用了一种通过逐步逼近求最优参数a的方法,称为梯度下降法。它的计算方法如下:

首先随机给a取一个值(如a=3),代入L的公式中,得到L=2,即损失>0,如下图所示:

此时(L在a=3处)的导数(梯度)为:
dL/da=1 dL/da = 1dL/da=1
应用下面的公式更新参数a的值:
a′=a−1∗dL/da=2 a' = a - 1 * dL/da = 2a=a1dL/da=2
也就是说,经过一次更新,a的值从3变为了2。我们来看直线y=ax(即模型)在样本空间中的变化:


也就是说,模型从虚线位置变到了实线位置,离样本点更近了,这符合我们的期望。

接下来将a=2代入L的公式中,得到L=1,即损失仍然>0,如下图所示:


此时(L在a=2处)的导数(梯度)为:
dL/da=1 dL/da = 1dL/da=1
应用下面的公式更新参数a的值:
a′=a−1∗dL/da=1 a' = a - 1 * dL/da = 1a=a1dL/da=1
接下来将a=1代入L的公式中,损失函数取得最小值0。此时模型为y=x,即在坐标系中正好通过点(1,1):

也就是说a=1就是我们要求的参数值。

纵观a的变化轨迹(红色虚线箭头),因其一直沿着梯度(红色实线箭头)的反方向变化,因此这种更新参数的方法又叫做梯度下降法

*在中学数学中我们常做的是把x=1,y=1代入y = ax,得到a的值。这种方法虽然简单直接,但是能求解是因为此时只有1个样本和1个参数。当模型参数和样本数量都到达B(十亿)以上时,直接求最优解的代价无法接受。因此需要通过逼近的方法去求最优解。

误区

网上有很多教程说梯度下降是“沿最陡的方向下山”,这只部分描述了梯度下降过程,但这句话简单来说等于“哪有悬崖往哪跳”,这和我们实际生活中选择下山路线并不相同,希望大家不要陷入这个误区。

以上就是我对模型训练原理的一点理解,如果您有什么意见和建议欢迎提出!如果您觉得我写得还可以,欢迎点赞、收藏和分享!另外转载还请注明出处!

http://www.jsqmd.com/news/478187/

相关文章:

  • 上海宠物口腔溃疡诊疗医生选择需要注意什么,猫咪牙结石/猫咪洗牙/狗狗拔牙/宠物口腔溃疡诊疗,宠物口腔溃疡诊疗医生怎么选择 - 品牌推荐师
  • 造相-Z-Image-Turbo LoRA多风格生成:古风仕女/现代都市/赛博朋克人像效果展示
  • 如何在NVIDIA Jetson平台快速部署Intel RealSense深度相机:完整实战指南
  • lychee-rerank-mm效果实测:中英文混合查询词下模型语义理解能力验证
  • MGeo中文地址解析实战:地址文本脱敏(门牌号掩码/敏感词过滤)
  • GLM-4-9B-Chat-1M镜像价值:开源可审计+1M上下文+多语言+Function Call全栈支持
  • GLM-4v-9b保姆级教程:WebUI中上传多图+跨图引用问答实操演示
  • 分布式理论
  • 圣女司幼幽-造相Z-Turbo提示词迭代方法论:从初稿→优化→定稿的5轮打磨流程
  • 电商供应链履约中台架构与业务全流程解析
  • 福建猫咪绝育哪里好?这些服务周到的专家可参考,宠物眼科/狗狗青光眼引流阀手术/猫咪义眼植入,宠物绝育专家推荐排行榜单 - 品牌推荐师
  • Qwen3-TTS-Tokenizer-12Hz开源大模型教程:651MB模型文件完整性校验SHA256方法
  • 题解:洛谷 B3835 [GESP202303 一级] 每月天数
  • IE浏览器强势回归,极客私藏ie下载站亲测有效
  • PyTorch 深度学习开发 常见疑难报错与解决方案汇总
  • Qwen3-ForcedAligner技术精讲:清音刻墨对齐算法在低信噪比下的鲁棒性设计
  • CasRel关系抽取模型效果展示:学术论文参考文献中‘作者-引用-论文’关系网络构建
  • Python 潮流周刊#142:Python 性能优化的进阶之路
  • InstructPix2Pix惊艳案例:‘Add vintage film effect’胶片滤镜生成效果
  • 前端技术核心领域与实践方向
  • 探究Redis + Caffeine两级缓存架构
  • AIGlasses_for_navigation部署教程:华为昇腾910B适配AscendCL加速指南
  • 灵感画廊入门必看:SDXL 1.0提示词工程从‘指令式’到‘文学式’跃迁
  • MusePublic Art Studio实操手册:从输入描述到保存高清作品完整流程
  • Cogito 3B真实输出:从模糊业务需求到数据库ER图+SQL Schema+API设计
  • DeepSeek-OCR-2效果展示:低对比度铅印老报纸PDF→段落/标题/广告栏结构化分离效果
  • Docker离线安装包构建(一键安装,多平台适用)
  • 2026年初绝育犬狗粮口碑盘点:科学喂养趋势下的品牌选择 - 2026年企业推荐榜
  • 2026年初,海淀中科院园所旁优质艺术机构深度评测 - 2026年企业推荐榜
  • StructBERT-Large中文模型开源大模型部署:全链路本地化语义分析方案