当前位置: 首页 > news >正文

周志华《机器学习—西瓜书》六

周志华《机器学习—西瓜书》六

六、神经网络模型

6-1、神经网络

什么是神经网络?
  • "神经网络是由具有适应性的简单单元组成的广泛并行互连的网络,它的组织能够模拟生物神经系统对真实世界物体所作出的交互反应! IT.Kohonen,1988,Neural Networks 创刊号
  • 神经网络是一个很大的学科领域,本课程仅讨论神经网络与机器学习的交集,即“神经网络学习”亦称“连接主义(connectionism)”学习
“简单单元”神经元模型

M-P 神经元模型 [McCulloch and Pitts,1943]

注意:圆圈的里面的弧线是输入加权结果大于阈值的意思

神经网络学得的知识蕴含在连接权与阈值中

神经元激活函数
  • 理想激活函数是阶跃函数,0表示抑制神经元,而1表示激活神经元阶
  • 阶跃函数具有不连续、不光滑等不好的性质,常用的是 Siamoid函数

Sigmoid函数(即S型函数sigmoid(x)=11+e−x\text{sigmoid}(x) = \frac{1}{1+e^{-x}}sigmoid(x)=1+ex1) 的核心优势是连续光滑、可导,这是它替代阶跃函数的关键,具体好性质包括:

  1. 连续且光滑
    阶跃函数是不连续的(在 ( x=0 ) 处突变),而Sigmoid在全体实数域上连续、处处可导,这满足了神经网络梯度下降优化的需求(梯度需要连续的函数来计算)。
  2. 值域在(0,1)之间
    输出结果可以自然地被解释为“概率”(比如在二分类任务中,输出接近1表示正类,接近0表示负类),符合分类任务的概率语义。
  3. 导数易计算
    其导数可以用自身表示:sigmoid′(x)=sigmoid(x)⋅(1−sigmoid(x))\text{sigmoid}'(x) = \text{sigmoid}(x) \cdot (1 - \text{sigmoid}(x))sigmoid(x)=sigmoid(x)(1sigmoid(x)),计算效率高,适合神经网络的反向传播。
  4. 单调性
    函数单调递增,能保持输入信号的“强弱”趋势(输入越大,输出越接近1;输入越小,输出越接近0)。

6-2、万有逼近能力

多层前馈网络结构
核心定义
  • 多层网络:包含隐层的网络。
  • 前馈网络:神经元之间不存在同层连接,也不存在跨层连接(信号仅从输入层→隐层→输出层单向传递)。
  • 功能单元:隐层和输出层的神经元又被称为“功能单元”。
结构图示

关键性质:万有逼近性

多层前馈网络有强大的表示能力 (“万有逼近性”)

仅需一个包含足够多神经元的隐层,多层前馈神经网络就能以任意精度逼近任意复杂度的连续函数(来源:[Hornik et al., 1989])。

待解决问题

隐层神经元的数量设置是未决问题(Open Problem),实际应用中常用“试错法”调整。

6-3、缓解过拟合

核心策略包括两种:

1. 早停(early stopping)
  • 核心逻辑:通过监控训练过程,提前终止训练以避免模型过度拟合训练数据。

  • 常见触发条件

    • 训练误差连续aaa轮的变化小于阈值bbb
    • 结合验证集:当训练误差持续降低,但验证误差开始升高时(说明模型已开始拟合训练集噪声),停止训练。
2. 正则化(regularization)
  • 核心逻辑:在模型的误差目标函数中加入“网络复杂度惩罚项”,限制模型的复杂度,避免过拟合。
  • 示例公式

E=λ1n∑k=1nEk+(1−λ)∑iwi2E = \lambda \frac{1}{n}\sum_{k=1}^{n} E_k + (1-\lambda) \sum_{i} w_i^2E=λn1k=1nEk+(1λ)iwi2

其中:

  • 1n∑k=1nEk\frac{1}{n}\sum_{k=1}^{n} E_kn1k=1nEk是训练误差项;
  • ∑iwi2\sum_{i} w_i^2iwi2是网络复杂度惩罚项(通常是连接权值的平方和);
  • λ\lambdaλ是平衡两项的权重系数。
  • (1−λ)∑iwi2(1-\lambda) \sum_{i} w_i^2(1λ)iwi2偏好较小的连接权和阈值,使网络输出更“光滑”,降低对训练数据噪声的敏感性。

6-4、神经网络简史

神经网络发展回顾
  1. 萌芽期(1940年代)

    • 1943年:M-P模型(模拟神经元的数学模型)
    • 1945年:Hebb学习规则(神经元连接强度的更新规则)
  2. 繁荣期(1956-1969年左右)

    • 1958年:感知机(首个可训练的神经网络模型)
    • 1960年:Adaline(自适应线性神经元)
  3. 冰河期(1969年后)

    • 1969年:Minsky & Papert出版《Perceptrons》,指出感知机仅能解决线性可分问题,限制了其应用,导致神经网络研究遇冷。
  4. 再繁荣期(1984-1997年左右)

    • 1983年:Hopfield网络(递归神经网络)
    • 1986年:BP算法(反向传播,解决多层网络训练问题)
  5. 沉寂期(1997年后)

    • SVM等统计学习方法兴起,神经网络研究热度下降。
  6. 当前繁荣期(2012年至今)

    • 深度学习兴起,成为主流研究方向。

补充:发展呈现“热十三-冷十五-热十三”的交替模式,技术瓶颈与新方法突破是阶段转换的核心原因。

例如:CNN(卷积神经网络)
  1. 理论基础

    • 信号处理中的卷积(1903年已出现)
    • 1962年:Hubel & Wiesel发现猫视皮层的局部感受野机制(为CNN的卷积层提供生物学启发)
  2. 技术雏形

    • 1982年:福岛邦彦在神经网络中引入卷积操作
    • 1989年:Y. LeCun用BP算法训练卷积网络,CNN基本成型
    • 1995年:LeCun与Bengio完整描述CNN结构
    • 1998年:CNN用于支票手写字符识别(首次实用化)
  3. 深度学习热潮的触发

    • 2006年:Hinton提出无监督逐层训练,解决深层模型训练难题
    • 2009年:H. Lee等用无监督逐层训练优化CNN
    • 2012年:Hinton研究组的8层CNN在ImageNet竞赛中获胜,引发深度学习广泛应用。

总结

坚持!!!

http://www.jsqmd.com/news/86515/

相关文章:

  • 26、Ubuntu系统下数字设备与多媒体文件的使用指南
  • 2025铝硬质阳极氧化制造企业TOP5权威推荐:甄选可靠供应 - mypinpai
  • 27、Ubuntu系统中的视频与游戏应用指南
  • 28、Ubuntu系统游戏安装与Windows兼容全攻略
  • 2025年无锡工业冷却设备公司口碑排行榜,无锡冰河冷却设备评 - myqiye
  • 29、深入探索Ubuntu系统:多方面实用指南
  • Objection 分类器实现
  • OpCore-Simplify终极指南:5分钟搞定Hackintosh配置
  • SeedVR-7B重构视频修复标准:从技术突破到产业落地
  • 32、进程间通信技术详解
  • Objection AB测试
  • 2025交通事故责任区分服务TOP5推荐:专业机构助力快速定 - mypinpai
  • 33、进程间通信(IPC)技术详解
  • 34、UNIX系统进程间通信与网络编程详解
  • 速读顶会论文:云计算的前世今生与未来战场
  • 速读顶会论文:PCCL——用光子电路交换优化分布式ML集体通信
  • 35、套接字网络编程指南
  • 36、UNIX 网络编程中的套接字使用详解
  • React Native Vision Camera实战:60FPS AR滤镜从入门到精通
  • Unity Catalog:面向新手的完整数据与AI目录管理指南
  • Stata中介效应Sobel检验工具:5分钟快速上手指南
  • CogAgent-9B:重新定义人机交互的视觉智能体,2025年企业效率革命新引擎
  • 信息学奥赛一本通 1640:C Looooops
  • Gitee运用笔记
  • 39、使用 TLI 进行网络编程
  • 40、UNIX网络编程中的TLI与杂项例程
  • 终极指南:3步解决Armbian音频配置难题
  • 41、UNIX 系统中的常用算法与函数详解
  • 42、UNIX 系统杂项编程实用指南
  • VideoDownloadHelper终极使用指南:轻松下载网络视频的完整教程