当前位置: 首页 > news >正文

李宏毅机器学习笔记20 - 实践

目录

摘要

Abstract

1.Feature normalization

2.Batch normalization

3.Batch normalization-testing


摘要

本篇文章继续学习李宏毅老师2025春季机器学习Feature normalization和Batch normalization相关概念及计算方法就是课程,学习内容

Abstract

This article continues the study ofProf. Hung-yi Lee's 2025 Spring Machine Learning Course, focusing on the concepts and computational methods ofFeature Normalization and Batch Normalization.

1.Feature normalization

假设两个参数w1,w2对loss的斜率相差很大,w1斜率变化小,w2斜率变化大,用固定的learning rate很难有好的结果,之前大家的解决办法是让learning rate自适应变化,而现在从另一个方向想,我们直接把难做的error surface去掉会不会好做一些。

举一个简单的例子,一个非常简单的model为然后计算的距离即为loss。假设x1输入都很小,w1变化对loss的影响就很小,就导致了w1斜率变化小;假设x2输入都很大,w2变化对loss的影响就很大,就算w2变化很,但是基于乘上了x2,所以loss变化很大,也就导致了w1斜率变化大。所以当我们的输入范围差距很大就会出现上述的这种情况。

那我们让输入有相同的范围就行使其变得更好训练, 一种做法是把所有的feature vector都集合起来,那我们把同一个dimension(维度)不同训练资料的feature vector的数值取出来,计算出均值记为,再计算他们的standard deviation(标准差)记为

接下来我们就允许做一个normalization,叫做标准化,把某个feature vector的某个维度的值减去之前算出的,再除得到一个值,记为。他们有一个特征就是某个维度上的平均值为0,方差为1。对所有的数据都处理后,他们的数值都在0上下,这样就可以制造出比较好训练的error surface。

2.Batch normalization

当我们搞定feature normalization后,依据layer 1,得到z,通过sigmoid或Relu得到a,再通过下一层,对第二层W2来说,实际上的输入是a,为上一层的输出,输出并没有做feature normalization,于是我们需要对a或z做feature normalization。

假设对z做feature normalization,我们将z1,z2,z3平均起来记为向量,再去计算向量中每个元素的标准差得到向量

用z1,z2,z3减去再除以(向量中的每个元素分别计算),最后得出结果向量,必须注意的是此时若是改变z1,会影响到导致,z2,z3也被更改。实际操作时,我们会让network考虑一个batch,因此我们是对一个batch里的数据做normalization,这也叫做batch normalization,适用于batch比较大的时候。

在batch normalization中还会需要进行额外操作,需要让乘上另一个向量(其中元素各自相乘,结果仍是向量)在加上一个向量,而是network另外的参数。初始是全一的向量,为全零的向量,在开始时不会影响,在后来训练到一定程度,他们会慢慢加进去。

3.Batch normalization-testing

在实际运作中,假设batch设置是64,但是资料并不足填满一个batch,此时的如何计算? 在训练中,我们每一个batch计算出的都会拿出来计算moving average,就是在训练中的所有会用于算一个平均值,用平均值代替。

http://www.jsqmd.com/news/35606/

相关文章:

  • 性能监测火焰图原理及搭建
  • 基于Java的车辆租赁管理平台/租车系统源码+运行步骤
  • 2025年优秀的郑州注册公司高评分服务推荐
  • 实用指南:【Java】P15 Java 深入理解 “this” 关键字
  • 2025年服务贴心的离婚财产分割律师口碑指数榜
  • php项目出现提示 no input file specified的解决方法集锦
  • 2025年靠谱的白水苹果精品推荐厂家
  • 2025年诚信的建筑业体系认证管理体系认证专家推荐榜
  • 20251109-2
  • 深入解析:让AI说“人话“:TypeChat.NET如何用强类型驯服大语言模型的“野性“
  • 2025年评价高的专利评估综合口碑榜
  • 2025年口碑好的耐高温劳保鞋厂家推荐及选择指南
  • 基于高光谱成像和偏最小二乘法(PLS)的苹果糖度检测MATLAB实现
  • 2025年优质的青年鸡高评价榜
  • day07-一键生成儿歌视频工作流
  • 实用指南:手机群控软件在游戏运营中的风险管控技术实现
  • Zabbix服务告警: Zabbix server: Utilization of icmp pinger processes over 75%
  • Process Monitor 学习笔记(5.2):事件模型与五大类操作(文档/注册表/进程/网络/Profiling
  • flask: 用gunicorn部署flask项目
  • 2025年评价高的盐城短视频剪辑用户好评榜
  • 使用Math库执行数值计算
  • 实用指南:Guava Cache 高性能本地缓存库详解与使用案例
  • 深度学习进阶(一)——从 LeNet 到 Transformer:卷积的荣光与注意力的崛起 - 实践
  • 2025年热门的剧院舞台灯光厂家最新推荐榜
  • 2025年知名的火车宠物托运用户好评榜
  • 2025年专业的短视频运营本地优质榜
  • 2025年11月货架厂家推荐榜:五强对比评测与选购全解析
  • 2025年优秀的涂装喷砂房最新TOP排名厂家
  • 2025年靠谱的品牌展厅设计展示空间创新设计榜
  • 2025年优秀的海外短信平台用户推荐权威榜