当前位置: 首页 > news >正文

改善深层神经网络 第一周:深度学习的实践(五)归一化

础后,可以说,在理解上对本周的内容不会存在什么难度。

当然,我也会对一些新出现的概念补充一些基础内容来帮助理解,在有之前基础的情况下,按部就班即可对本周内容有较好的掌握。

在学习完一些缓解过拟合的方法后,我们便可以较好的训练神经网络,而不至于出现因为模型复杂度上升反而导致模型性能下降的情况。

这样,神经网络就可以较好的拟合数据。

而这一部分的内容,就是在这个基础上如何加快神经网络的训练,实现更快,更稳定地收敛。

1.归一化

还是先把概念摆出来:

归一化(Normalization)是指将数据按一定的比例或标准进行调整,使得数据的数值范围或分布符合某种特定的要求。通常,归一化的目标是将数据转化为统一的尺度,便于不同数据之间的比较或用于某些算法中。

要提前说明的是,下面的笔记内容介绍的只是归一化方法中最普适的一种,叫Z-Score标准化(标准差标准化),也可以直接叫标准化。

1.1 标准化的步骤

(1)计算样本的均值

对每一维特征,计算其均值

我们用一组数据在每一步进行相应处理来演示这个完整的过程:

原始样本:

,样本数

(2)计算每个样本与均值的差

以及平方差

样本

10 -2 4

12 0 0

9 -3 9

15 3 9

14 2 4

(3)计算方差与标准差

总体方差(分母使用

):

总体标准差:

(4)执行标准化变换

每个样本的标准化结果:

逐项计算:

10 -2 -0.877058

12 0 0.000000

9 -3 -1.315587

15 3 1.315587

14 2 0.877058

因此标准化后的结果为:

这样,我们就对数据完成了一次标准化,那进行这些步骤的作用又是什么呢?

1.2标准化的作用

我们来看一下各个步骤后,样本数据的变化:

myplot213213

这是未经处理的原始数据,现在,我们按照标准化公式一步步进行:

将各数据减去均值,这一步也叫做中心化,此时数据分布如下:

myplot3213123

可以发现,中心化后,数据的均值变为 0:

现在,我们再把中心化的数据除以标准差,此时数据分布如下:

44

经过这一步,标准化后数据的标准差为 1:

也就是说,标准化后,数据的均值变为0,标准差变为1,这是它的作用,可这样的变换又是如何帮助训练的呢?

我们继续下一节。

1.3 标准化如何帮助训练?

(1)消除量纲差距的同时保持特征信息

在现实数据中,不同特征往往有不同的单位或数量级。

例如,在一个房价预测模型中:

房屋面积以“平方米”计,数值可能在几十到几百;

房间数量只在“1~5”之间变化。

如果不做标准化,面积特征的值远大于房间数,模型在更新参数时会更偏向面积,而忽视房间数量的影响。

对此,标准化这样解决这个问题:

中心化:将每个特征的均值移动到 0,使数据以 0 为中心,正负对称,方便神经网络处理。

除以标准差:标准差就像一个“伸缩尺”,根据特征自身的波动范围对数据进行拉伸或压缩,波动大的特征被压缩幅度大,波动小的特征被压缩幅度小,从而统一特征尺度。

要说明的是,除以标准差精妙的地方在于统一尺度的同时保留了同一特征内的差距。

举个例子:

对于两个人的年龄,一个人20岁,一个人10岁。

压缩后,前一个人变成了2岁,后一个人变成了1岁。

但是他们之间的差别关系没有变化,前者仍比后者大,我们只是把跨度从10岁缩小从了1岁来减少波动性。模型依旧可以区分两个样本的差别。

我们再用房屋的实例说明来整体演示一下:

设房屋面积原始值:[50, 120, 200, 300, 400], 房间数原始值:[1, 2, 3, 4, 5]

中心化后:面积:[−167, −97, −17, 83, 183],房间数:[−2, −1, 0, 1, 2]

除以标准差(面积 σ≈145.44,房间数 σ≈1.414)后: 面积标准化:[−1.15, −0.67, −0.12, 0.57, 1.26], 房间数标准化:[−1.41, −0.71, 0, 0.71, 1.41]

这样,通过标准化,面积和房间数都被缩放到大致相似的范围,梯度更新时影响力平衡,同时保持了各房屋之间的相对差异。

可以形象地理解为:每个特征都被配上了“统一的尺子”,让它们在同一尺度下公平竞争,既消除了量纲差距,又保持原始信息。

(2)平衡含正负值的数据集

标准化后的数据以 0 为中心,分布更对称,特别适合使用如 tanh、ReLU 等激活函数的神经网络。

我们用tanh举例:

myplot2

如果输入特征全是正数,tanh 的输出始终偏向 1 区域,梯度几乎为 0,学习停滞。

而经过标准化后,输入既有正又有负,输出能覆盖整个区间,梯度保持活跃,网络学习更充分。

这便是关于归一化的内容,下一篇便是本周理论部分的最后一篇,是关于网络运行中一些常见的梯度现象和其应对方法。

http://www.jsqmd.com/news/83574/

相关文章:

  • 学Simulink--基于高比例可再生能源渗透的复杂电网建模场景实例:新能源高渗透下传统同步机主导系统的动态响应建模
  • 数据结构与算法11种排序算法全面对比分析
  • IEC 61400-1-2019风电设计标准:5大核心要点完整解析与快速掌握指南
  • 毕设开源 深度学习YOLO交通路面缺陷检测系统(源码+论文)
  • copyparty实战指南:零基础搭建个人文件共享服务器的完整教程
  • 2025年12月厦门岛外搬家,厦门搬家搬厂,厦门拉货搬家公司推荐:行业测评与选择指南 - 品牌鉴赏师
  • 打CTF,逆向分析攻略!一篇文章给你讲清楚逆向分析和破解技巧!
  • 2025年12月厦门搬家搬迁,厦门跨省拉货搬家,思明搬家公司推荐:聚焦企业综合实力与服务竞争力 - 品牌鉴赏师
  • 破局 AI 选择焦虑:以生态之力,找准低风险高价值的转型航向
  • 第三方专业洁净环境检测机构推荐指南TOP5(2025年版) - 品牌推荐大师
  • Java+Playwright自动化测试-30- 操作单选和多选按钮 - 番外篇(详细教程)
  • 破局数智化转型困境:JBoltAI 为传统企业点亮 AI 升级之路
  • 2026的网络安全行业前景如何?还能入行分蛋糕吗?
  • 记录一次USB虚拟网络问题排查
  • 黑客用的最多的Kali Linux系统安装教程,网络安全零基础入门到精通,看这一篇就够了!
  • 从零开始学Flink:事件驱动
  • 别再瞎找漏洞!7个「合法变现」的挖洞途径,新手也能从0赚到第一笔奖金_如何挖漏洞挣钱
  • 适合2026届毕业生的简历生成网站推荐
  • ARM汇编概述:Cortex-M3/M4实战指南
  • Tarjan全家桶系列--强联通分量
  • 学Simulink——基于高比例可再生能源渗透的复杂电网建模场景实例:大规模光伏并网对区域电网频率稳定影响研究
  • 485报文订阅服务
  • 毕设开源 深度学习火焰检测识别(源码+论文)
  • 【Spring框架】SpringJDBC
  • 校徽批评,何时从“找茬”走向“建设”?——兼评一篇公众号文章的逻辑
  • 中小诊所系统通常具备哪些功能?
  • 【URP】Unity[后处理]颜色曲线ColorCurves
  • 基于Uniapp的手机维修交流小程序
  • 大模型通义千问3-VL-Plus - 视觉推理(本地图片)
  • Profinet转Modbus TCP工业数据采集网关:实现1200PLC 与打标卡数据实时传输