当前位置：首页 > news >正文

周志华《机器学习—西瓜书》六

news 2026/3/26 19:47:23

六、神经网络模型

"神经网络是由具有适应性的简单单元组成的广泛并行互连的网络，它的组织能够模拟生物神经系统对真实世界物体所作出的交互反应! IT.Kohonen,1988，Neural Networks 创刊号
神经网络是一个很大的学科领域，本课程仅讨论神经网络与机器学习的交集，即“神经网络学习”亦称“连接主义(connectionism)”学习

M-P 神经元模型 [McCulloch and Pitts，1943]

注意：圆圈的里面的弧线是输入加权结果大于阈值的意思

神经网络学得的知识蕴含在连接权与阈值中

Sigmoid函数（即S型函数sigmoid(x)=11+e−x\text{sigmoid}(x) = \frac{1}{1+e^{-x}}sigmoid(x)=1+e−x1) 的核心优势是连续光滑、可导，这是它替代阶跃函数的关键，具体好性质包括：

连续且光滑：
阶跃函数是不连续的（在 ( x=0 ) 处突变），而Sigmoid在全体实数域上连续、处处可导，这满足了神经网络梯度下降优化的需求（梯度需要连续的函数来计算）。
值域在(0,1)之间：
输出结果可以自然地被解释为“概率”（比如在二分类任务中，输出接近1表示正类，接近0表示负类），符合分类任务的概率语义。
导数易计算：
其导数可以用自身表示：sigmoid′(x)=sigmoid(x)⋅(1−sigmoid(x))\text{sigmoid}'(x) = \text{sigmoid}(x) \cdot (1 - \text{sigmoid}(x))sigmoid′(x)=sigmoid(x)⋅(1−sigmoid(x))，计算效率高，适合神经网络的反向传播。
单调性：
函数单调递增，能保持输入信号的“强弱”趋势（输入越大，输出越接近1；输入越小，输出越接近0）。

多层前馈网络有强大的表示能力 (“万有逼近性”)

仅需一个包含足够多神经元的隐层，多层前馈神经网络就能以任意精度逼近任意复杂度的连续函数（来源：[Hornik et al., 1989]）。

隐层神经元的数量设置是未决问题（Open Problem），实际应用中常用“试错法”调整。

核心策略包括两种：

核心逻辑：通过监控训练过程，提前终止训练以避免模型过度拟合训练数据。
常见触发条件：
- 训练误差连续aaa轮的变化小于阈值bbb；
- 结合验证集：当训练误差持续降低，但验证误差开始升高时（说明模型已开始拟合训练集噪声），停止训练。

E=λ1n∑k=1nEk+(1−λ)∑iwi2E = \lambda \frac{1}{n}\sum_{k=1}^{n} E_k + (1-\lambda) \sum_{i} w_i^2E=λn1∑k=1nEk+(1−λ)∑iwi2

其中：

1n∑k=1nEk\frac{1}{n}\sum_{k=1}^{n} E_kn1∑k=1nEk是训练误差项；
∑iwi2\sum_{i} w_i^2∑iwi2是网络复杂度惩罚项（通常是连接权值的平方和）；
λ\lambdaλ是平衡两项的权重系数。
(1−λ)∑iwi2(1-\lambda) \sum_{i} w_i^2(1−λ)∑iwi2偏好较小的连接权和阈值，使网络输出更“光滑”，降低对训练数据噪声的敏感性。

‍

萌芽期（1940年代）
- 1943年：M-P模型（模拟神经元的数学模型）
- 1945年：Hebb学习规则（神经元连接强度的更新规则）
繁荣期（1956-1969年左右）
- 1958年：感知机（首个可训练的神经网络模型）
- 1960年：Adaline（自适应线性神经元）
冰河期（1969年后）
- 1969年：Minsky & Papert出版《Perceptrons》，指出感知机仅能解决线性可分问题，限制了其应用，导致神经网络研究遇冷。
再繁荣期（1984-1997年左右）
- 1983年：Hopfield网络（递归神经网络）
- 1986年：BP算法（反向传播，解决多层网络训练问题）
沉寂期（1997年后）
- SVM等统计学习方法兴起，神经网络研究热度下降。
当前繁荣期（2012年至今）
- 深度学习兴起，成为主流研究方向。

补充：发展呈现“热十三-冷十五-热十三”的交替模式，技术瓶颈与新方法突破是阶段转换的核心原因。

理论基础
- 信号处理中的卷积（1903年已出现）
- 1962年：Hubel & Wiesel发现猫视皮层的局部感受野机制（为CNN的卷积层提供生物学启发）
技术雏形
- 1982年：福岛邦彦在神经网络中引入卷积操作
- 1989年：Y. LeCun用BP算法训练卷积网络，CNN基本成型
- 1995年：LeCun与Bengio完整描述CNN结构
- 1998年：CNN用于支票手写字符识别（首次实用化）
深度学习热潮的触发
- 2006年：Hinton提出无监督逐层训练，解决深层模型训练难题
- 2009年：H. Lee等用无监督逐层训练优化CNN
- 2012年：Hinton研究组的8层CNN在ImageNet竞赛中获胜，引发深度学习广泛应用。