当前位置: 首页 > news >正文

SGD随机梯度下降

SGD(Stochastic Gradient Descent,随机梯度下降)是机器学习和深度学习中最为核心的优化算法。简单来说,它是一种用来寻找模型最佳参数(即让损失函数最小化)的方法。

你蒙着眼睛站在一座山上(代表高损失值),想要走到山脚(代表低损失值)。你需要用脚试探一下哪个方向是向下的斜坡,然后迈出一步。

SGD就是这种“试探和迈步”过程的数学版本。

1. 为什么叫“随机梯度下降”?

这个名字可以拆解为三部分来理解:

  • 梯度:指向山上最陡峭的方向。在数学中,它告诉我们应该往哪个方向调整参数,损失函数会增加得最快。既然我们要下山,就应该往梯度的反方向走。
  • 下降:我们的目标是通过反复沿着梯度的反方向更新参数,让损失函数的值逐渐变小。
  • 随机:这是SGD区别于标准梯度下降的关键。
    • 标准梯度下降:为了找到下山的方向,你需要站在山顶,同时测量所有可能的路径(即计算整个数据集所有样本的损失),然后决定一个平均的最佳方向。这样做非常准,但如果山很大(数据集很大),计算量会巨大,导致迈一步要等很久。
    • 随机梯度下降:SGD选择只随便抓一把石子扔出去,根据这一小把石子滚落的方向(即随机选取一个一小批样本计算梯度),就立刻迈出一步。虽然这个方向不一定是最准确的(带有噪声),但迈步的速度非常快,可以走很多步,最终也能到达山脚。

2. SGD 的工作流程

如果用数学逻辑来表达,SGD的循环非常简单:

  1. 随机打乱:将训练数据打乱。
  2. 取一小批数据:从数据中抽取一小部分样本(称为Mini-batch,批量大小为1时就是纯SGD)。
  3. 计算梯度:只根据这一小批数据,计算当前模型预测的误差,并求出误差对参数的梯度。
  4. 更新参数:沿着梯度的反方向调整参数。
    • 公式通常写作:新参数 = 旧参数 - 学习率 × 梯度
    • 学习率:这是一个超参数,控制着你迈步子的大小。学习率太大容易一步跨过头摔跤(错过最优点);学习率太小则下山太慢。
  5. 重复:不断重复步骤2-4,直到整个数据集都被看过一遍(称为一个Epoch),然后开始下一轮。

3. 为什么SGD如此流行?

优点:

  • 速度快:尤其是在大数据集上。你不需要等看完所有图片才更新模型,看几张图就更新一次,计算成本极低。
  • 易于逃离局部最优点:由于“随机性”带来的噪声,SGD在优化路径上不会那么平稳。当它陷入一个不是很好的小坑(局部最优)时,噪声可能会把它震出来,从而有机会找到更平坦、更好的坑(全局最优或更好的局部最优)。
  • 在线学习:可以适应新数据的不断流入,进行实时更新。

缺点:

  • 震荡:因为使用的是随机子集的梯度,而不是全局真实的梯度,下降过程往往比较曲折,不像标准梯度下降那样平滑地直奔最低点。
  • 超参数敏感:对学习率的设置比较敏感。
  • 可能收敛到次优点:虽然随机性有助于逃离,但如果噪声控制不好,也可能始终在最优点附近徘徊,而无法收敛到最精确的点。
http://www.jsqmd.com/news/405559/

相关文章:

  • 智能交通目标检测数据集(完整标注+可直接训练YOLO专用版本)
  • 基于SpringBoot+Vue的校园社团信息管理pf管理系统设计与实现【Java+MySQL+MyBatis完整源码】
  • 虹口区宠物就医指南:评价较好的医院有哪些,宠物医院/宠物外科/宠物骨科/异宠医院/宠物皮肤科/母猫绝育,宠物医院推荐 - 品牌推荐师
  • 单车/共享单车目标检测数据集(适用YOLO系列)(已标注+划分/可直接训练)
  • 基于小波和神经网络的均衡算法,matlab仿真程序。 (1)中信道要求多径衰弱信道。 (2)中...
  • 1985-2024年瞪羚、独角兽与科技型初创企业关键数字技术专利申请与授权面板数据
  • 2026.2.23:AgentScope框架实战<三>:agentscope完成无限对话(用户代理)
  • 2000-2024年各省人口自然增长率数据
  • 常见设计模式简介
  • 常见的HTTP状态码有哪些?
  • 1. 为什么java不能用is开头来做布尔值的参数名,会出现反序列化异常。
  • 把坑都踩完了!AI论文网站 千笔·专业学术智能体 VS 锐智 AI,专科生专属利器
  • 横评后发现 9个AI论文软件:专科生毕业论文写作必备工具推荐!
  • 现在开始学网络安全,晚吗?2026零基础入门全攻略,看完直接开冲!
  • 好用还专业!9个降AI率工具测评对比,本科生必看
  • 不踩雷!断层领先的AI论文工具 —— 千笔·专业论文写作工具
  • 网络安全学习路线:从入门到精通,2026年最系统的技能提升
  • 【RAG企业应用:高命中率】28、RAG系统高命中率实战:向量数据库选型与检索优化全指南
  • 改稿速度拉满!专科生专用降AIGC平台 —— 千笔·降AIGC助手
  • 这次终于选对!10个AI论文网站测评:MBA毕业论文与科研写作必备工具推荐
  • python小程序手机问卷调查系统
  • python小程序装修装饰公司在线管理系统的设计与开发手机端
  • 交稿前一晚!AI论文网站 千笔写作工具 VS 知文AI,专科生必备神器!
  • 24小时自助KTV,如何低成本快速接入美团核销接口!2026年赶紧收藏起来
  • 卖爆了!9.9元美团洗车券,接入美团核销接口,真正实现24小时无人值守
  • 美团核销接入助力自助桌球室,真正实现零侵入式对接,承接春节流量小高峰!
  • 24小时自助舞蹈室,接入美团核销,真正实现“无人打扰,想练就练”,低门槛,快速接入
  • Smart 200PLC 与 ACS580 - 880MODBUS RTU 通讯全解析
  • 达梦数据字典
  • 卫朋:IPD流程实战 - 如何写商业计划书?