当前位置：首页 > news >正文

人工智能之核心技术深度学习第一章神经网络基础

news 2026/7/6 10:08:15

人工智能之核心技术深度学习

第一章神经网络基础—公式关注公众号

文章目录
人工智能之核心技术深度学习
一、感知器模型
1.1 线性感知器（Perceptron）
1.2 多层感知器（MLP, Multi-Layer Perceptron）
二、激活函数
常见激活函数对比
激活函数图像（示意）
三、神经网络结构设计
3.1 各层作用
3.2 设计原则
（1）隐藏层数量
（2）每层神经元数量
四、配套代码实现（PyTorch）
五、万能近似定理（Universal Approximation Theorem）
总结
资料关注

一、感知器模型

1.1 线性感知器（Perceptron）

结构：
线性感知器是最简单的神经网络单元，由 Frank Rosenblatt 在 1957 年提出。它模拟生物神经元：接收多个输入，加权求和后通过一个激活函数输出结果。

数学表达式为：

y = f ( ∑ i = 1 n w i x i + b ) y = f\left( \sum_{i=1}^{n} w_i x_i + b \right)y=f(i=1∑nwixi+b)

其中：

x i x_ixi是第i ii个输入
w i w_iwi是对应的权重
b bb是偏置（bias）
f ( ⋅ ) f(\cdot)f(⋅)是激活函数（感知器中通常为阶跃函数）

原理：
感知器试图学习一个线性决策边界（超平面），将两类数据分开。如果数据线性可分，感知器学习算法可以收敛到正确解。

局限性：
感知器只能解决线性可分问题。经典反例是异或（XOR）问题：

x₁	x₂	XOR
0	0	0
0	1	1
1	0	1
1	1	0

这四点无法用一条直线完全分开（如下图所示），因此单层感知器无法学习 XOR。

💡关键结论：单层感知器 = 线性分类器 → 无法处理非线性问题。

1.2 多层感知器（MLP, Multi-Layer Perceptron）

为了解决感知器的局限性，人们引入了隐藏层，形成了多层感知器（MLP）。

结构：输入层 → 一个或多个隐藏层 → 输出层
核心思想：通过堆叠非线性变换，组合出复杂的决策边界，从而拟合非线性函数（如 XOR）

XOR 的 MLP 解决方案（2 层）：

隐藏层有 2 个神经元，分别学习“AND”和“OR”逻辑
输出层组合它们实现 XOR

✅突破：MLP + 非线性激活函数 → 可以逼近任意连续函数（万能近似定理）

二、激活函数

激活函数赋予神经网络非线性表达能力。如果没有激活函数，无论多少层，网络都等价于一个线性模型。

常见激活函数对比

激活函数	公式	优点	缺点	适用场景
Sigmoid	$ \sigma(x) = \frac{1}{1 + e^{-x}} $	输出在 (0,1)，适合概率输出	梯度消失、输出非零中心	二分类输出层
Tanh	$ \tanh(x) = \frac{e^x - e^{-x}}{ex + e^{-x}} $	零中心、比 Sigmoid 梯度更强	仍存在梯度消失	隐藏层（早期）
ReLU	$ \text{ReLU}(x) = \max(0, x) $	计算快、缓解梯度消失	“神经元死亡”（负区梯度为0）	默认隐藏层激活函数
Leaky ReLU	$ \text{LReLU}(x) = \begin{cases} x & x > 0 \ \alpha x & x \leq 0 \end{cases} $	解决 ReLU 死亡问题	需调超参α \alphaα	ReLU 的改进版
Softmax	$ \text{Softmax}(z_i) = \frac{e^{z_i}}{\sum_j e^{z_j}} $	多分类概率归一化	仅用于输出层	多分类任务输出层

激活函数图像（示意）

📌现代实践建议：
隐藏层优先使用ReLU或Leaky ReLU
二分类输出用Sigmoid
多分类输出用Softmax

三、神经网络结构设计

3.1 各层作用

层类型	作用
输入层	接收原始特征（如像素值、文本向量），不做计算，仅传递
隐藏层	提取特征、学习数据的抽象表示（层数越多，抽象能力越强）
输出层	生成最终预测（分类概率、回归值等），激活函数依任务而定

3.2 设计原则

（1）隐藏层数量

浅层网络（1~2 层）：适用于简单任务、小数据集
深层网络（>3 层）：适用于复杂任务（图像、语音），但需足够数据和正则化

⚠️ 并非越深越好！过深可能导致：
梯度消失/爆炸
过拟合
训练困难

（2）每层神经元数量

输入层神经元数 = 特征维度
输出层神经元数 = 类别数（分类）或 1（回归）
隐藏层神经元数：经验法则
- 通常介于输入与输出之间
- 常用：$ N_h = \frac{N_{in} + N_{out}}{2} $ 或 $ N_h = \sqrt{N_{in} \times N_{out}} $
- 也可采用“金字塔”结构（逐层减少）

🔧实用技巧：
从简单结构开始（如 1 隐藏层，64 神经元）
用验证集调参（Grid Search / Random Search）
使用 Dropout、BatchNorm 提升泛化

四、配套代码实现（PyTorch）

以下是一个完整的 MLP 实现，用于解决 XOR 问题：

importtorchimporttorch.nnasnnimporttorch.optimasoptim# XOR 数据X=torch.tensor([[0,0],[0,1],[1,0],[1,1]],dtype=torch.float32)y=torch.tensor([[0],[1],[1],[0]],dtype=torch.float32)# 定义 MLP 模型classXOR_MLP(nn.Module):def__init__(self):super().__init__()self.hidden=nn.Linear(2,4)# 输入2维，隐藏层4神经元self.output=nn.Linear(4,1)# 输出1维self.relu=nn.ReLU()self.sigmoid=nn.Sigmoid()# 二分类输出defforward(self,x):x=self.relu(self.hidden(x))x=self.sigmoid(self.output(x))returnx# 实例化模型、损失函数、优化器model=XOR_MLP()criterion=nn.BCELoss()# 二元交叉熵optimizer=optim.SGD(model.parameters(),lr=0.1)# 训练forepochinrange(1000):optimizer.zero_grad()pred=model(X)loss=criterion(pred,y)loss.backward()optimizer.step()ifepoch%200==0:print(f"Epoch{epoch}, Loss:{loss.item():.4f}")# 测试withtorch.no_grad():output=model(X)print("\n预测结果:")foriinrange(4):print(f"输入:{X[i].tolist()}-> 预测:{output[i].item():.4f}(真实:{y[i].item()})")

输出示例：

Epoch 0, Loss: 0.7032 Epoch 200, Loss: 0.0321 ... 预测结果: 输入: [0.0, 0.0] -> 预测: 0.0123 (真实: 0.0) 输入: [0.0, 1.0] -> 预测: 0.9876 (真实: 1.0) ...

✅ 成功解决 XOR！

五、万能近似定理（Universal Approximation Theorem）

定理：一个具有单隐藏层和足够多神经元的前馈神经网络，只要使用非线性激活函数，就可以以任意精度逼近任何定义在紧集上的连续函数。

这意味着：理论上，一个隐藏层就足够强大。但实践中，深层网络更高效（用更少参数表达复杂函数）。

总结

概念	关键点
感知器	线性模型，无法解决 XOR
MLP	引入隐藏层 + 非线性激活 → 解决非线性问题
激活函数	赋予非线性能力，ReLU 是默认选择
网络结构	输入→隐藏→输出；深度/宽度需平衡

资料关注

公众号：咚咚王
gitee：https://gitee.com/wy18585051844/ai_learning

《Python编程：从入门到实践》
《利用Python进行数据分析》
《算法导论中文第三版》
《概率论与数理统计（第四版） (盛骤) 》
《程序员的数学》
《线性代数应该这样学第3版》
《微积分和数学分析引论》
《（西瓜书）周志华-机器学习》
《TensorFlow机器学习实战指南》
《Sklearn与TensorFlow机器学习实用指南》
《模式识别（第四版）》
《深度学习 deep learning》伊恩·古德费洛著花书
《Python深度学习第二版(中文版)【纯文本】 (登封大数据 (Francois Choliet)) (Z-Library)》
《深入浅出神经网络与深度学习+(迈克尔·尼尔森（Michael+Nielsen）》
《自然语言处理综论第2版》
《Natural-Language-Processing-with-PyTorch》
《计算机视觉-算法与应用(中文版)》
《Learning OpenCV 4》
《AIGC：智能创作时代》杜雨+&+张孜铭
《AIGC原理与实践：零基础学大语言模型、扩散模型和多模态模型》
《从零构建大语言模型（中文版）》
《实战AI大模型》
《AI 3.0》