当前位置: 首页 > news >正文

人工智能之核心技术 深度学习 第一章 神经网络基础

人工智能之核心技术 深度学习

第一章 神经网络基础—公式关注公众号


文章目录

  • 人工智能之核心技术 深度学习
    • 一、感知器模型
      • 1.1 线性感知器(Perceptron)
      • 1.2 多层感知器(MLP, Multi-Layer Perceptron)
    • 二、激活函数
      • 常见激活函数对比
      • 激活函数图像(示意)
    • 三、神经网络结构设计
      • 3.1 各层作用
      • 3.2 设计原则
        • (1)隐藏层数量
        • (2)每层神经元数量
    • 四、配套代码实现(PyTorch)
    • 五、万能近似定理(Universal Approximation Theorem)
    • 总结
  • 资料关注

一、感知器模型

1.1 线性感知器(Perceptron)

结构
线性感知器是最简单的神经网络单元,由 Frank Rosenblatt 在 1957 年提出。它模拟生物神经元:接收多个输入,加权求和后通过一个激活函数输出结果。

数学表达式为:

y = f ( ∑ i = 1 n w i x i + b ) y = f\left( \sum_{i=1}^{n} w_i x_i + b \right)y=f(i=1nwixi+b)

其中:

  • x i x_ixi是第i ii个输入
  • w i w_iwi是对应的权重
  • b bb是偏置(bias)
  • f ( ⋅ ) f(\cdot)f()是激活函数(感知器中通常为阶跃函数)

原理
感知器试图学习一个线性决策边界(超平面),将两类数据分开。如果数据线性可分,感知器学习算法可以收敛到正确解。

局限性
感知器只能解决线性可分问题。经典反例是异或(XOR)问题

x₁x₂XOR
000
011
101
110

这四点无法用一条直线完全分开(如下图所示),因此单层感知器无法学习 XOR。

x1

Perceptron

x2

y

💡关键结论:单层感知器 = 线性分类器 → 无法处理非线性问题。


1.2 多层感知器(MLP, Multi-Layer Perceptron)

为了解决感知器的局限性,人们引入了隐藏层,形成了多层感知器(MLP)。

  • 结构:输入层 → 一个或多个隐藏层 → 输出层
  • 核心思想:通过堆叠非线性变换,组合出复杂的决策边界,从而拟合非线性函数(如 XOR)

XOR 的 MLP 解决方案(2 层):

  • 隐藏层有 2 个神经元,分别学习“AND”和“OR”逻辑
  • 输出层组合它们实现 XOR

x1

h1

h2

x2

y

突破:MLP + 非线性激活函数 → 可以逼近任意连续函数(万能近似定理)


二、激活函数

激活函数赋予神经网络非线性表达能力。如果没有激活函数,无论多少层,网络都等价于一个线性模型。

常见激活函数对比

激活函数公式优点缺点适用场景
Sigmoid$ \sigma(x) = \frac{1}{1 + e^{-x}} $输出在 (0,1),适合概率输出梯度消失、输出非零中心二分类输出层
Tanh$ \tanh(x) = \frac{e^x - e{-x}}{ex + e^{-x}} $零中心、比 Sigmoid 梯度更强仍存在梯度消失隐藏层(早期)
ReLU$ \text{ReLU}(x) = \max(0, x) $计算快、缓解梯度消失“神经元死亡”(负区梯度为0)默认隐藏层激活函数
Leaky ReLU$ \text{LReLU}(x) = \begin{cases} x & x > 0 \ \alpha x & x \leq 0 \end{cases} $解决 ReLU 死亡问题需调超参α \alphaαReLU 的改进版
Softmax$ \text{Softmax}(z_i) = \frac{e^{z_i}}{\sum_j e^{z_j}} $多分类概率归一化仅用于输出层多分类任务输出层

激活函数图像(示意)

📌现代实践建议

  • 隐藏层优先使用ReLULeaky ReLU
  • 二分类输出用Sigmoid
  • 多分类输出用Softmax

三、神经网络结构设计

3.1 各层作用

层类型作用
输入层接收原始特征(如像素值、文本向量),不做计算,仅传递
隐藏层提取特征、学习数据的抽象表示(层数越多,抽象能力越强)
输出层生成最终预测(分类概率、回归值等),激活函数依任务而定

3.2 设计原则

(1)隐藏层数量
  • 浅层网络(1~2 层):适用于简单任务、小数据集
  • 深层网络(>3 层):适用于复杂任务(图像、语音),但需足够数据和正则化

⚠️ 并非越深越好!过深可能导致:

  • 梯度消失/爆炸
  • 过拟合
  • 训练困难
(2)每层神经元数量
  • 输入层神经元数 = 特征维度
  • 输出层神经元数 = 类别数(分类)或 1(回归)
  • 隐藏层神经元数:经验法则
    • 通常介于输入与输出之间
    • 常用:$ N_h = \frac{N_{in} + N_{out}}{2} $ 或 $ N_h = \sqrt{N_{in} \times N_{out}} $
    • 也可采用“金字塔”结构(逐层减少)

🔧实用技巧

  • 从简单结构开始(如 1 隐藏层,64 神经元)
  • 用验证集调参(Grid Search / Random Search)
  • 使用 Dropout、BatchNorm 提升泛化

四、配套代码实现(PyTorch)

以下是一个完整的 MLP 实现,用于解决 XOR 问题:

importtorchimporttorch.nnasnnimporttorch.optimasoptim# XOR 数据X=torch.tensor([[0,0],[0,1],[1,0],[1,1]],dtype=torch.float32)y=torch.tensor([[0],[1],[1],[0]],dtype=torch.float32)# 定义 MLP 模型classXOR_MLP(nn.Module):def__init__(self):super().__init__()self.hidden=nn.Linear(2,4)# 输入2维,隐藏层4神经元self.output=nn.Linear(4,1)# 输出1维self.relu=nn.ReLU()self.sigmoid=nn.Sigmoid()# 二分类输出defforward(self,x):x=self.relu(self.hidden(x))x=self.sigmoid(self.output(x))returnx# 实例化模型、损失函数、优化器model=XOR_MLP()criterion=nn.BCELoss()# 二元交叉熵optimizer=optim.SGD(model.parameters(),lr=0.1)# 训练forepochinrange(1000):optimizer.zero_grad()pred=model(X)loss=criterion(pred,y)loss.backward()optimizer.step()ifepoch%200==0:print(f"Epoch{epoch}, Loss:{loss.item():.4f}")# 测试withtorch.no_grad():output=model(X)print("\n预测结果:")foriinrange(4):print(f"输入:{X[i].tolist()}-> 预测:{output[i].item():.4f}(真实:{y[i].item()})")

输出示例

Epoch 0, Loss: 0.7032 Epoch 200, Loss: 0.0321 ... 预测结果: 输入: [0.0, 0.0] -> 预测: 0.0123 (真实: 0.0) 输入: [0.0, 1.0] -> 预测: 0.9876 (真实: 1.0) ...

✅ 成功解决 XOR!


五、万能近似定理(Universal Approximation Theorem)

定理:一个具有单隐藏层足够多神经元的前馈神经网络,只要使用非线性激活函数,就可以以任意精度逼近任何定义在紧集上的连续函数。

这意味着:理论上,一个隐藏层就足够强大。但实践中,深层网络更高效(用更少参数表达复杂函数)。


总结

概念关键点
感知器线性模型,无法解决 XOR
MLP引入隐藏层 + 非线性激活 → 解决非线性问题
激活函数赋予非线性能力,ReLU 是默认选择
网络结构输入→隐藏→输出;深度/宽度需平衡

资料关注

公众号:咚咚王
gitee:https://gitee.com/wy18585051844/ai_learning

《Python编程:从入门到实践》
《利用Python进行数据分析》
《算法导论中文第三版》
《概率论与数理统计(第四版) (盛骤) 》
《程序员的数学》
《线性代数应该这样学第3版》
《微积分和数学分析引论》
《(西瓜书)周志华-机器学习》
《TensorFlow机器学习实战指南》
《Sklearn与TensorFlow机器学习实用指南》
《模式识别(第四版)》
《深度学习 deep learning》伊恩·古德费洛著 花书
《Python深度学习第二版(中文版)【纯文本】 (登封大数据 (Francois Choliet)) (Z-Library)》
《深入浅出神经网络与深度学习+(迈克尔·尼尔森(Michael+Nielsen)》
《自然语言处理综论 第2版》
《Natural-Language-Processing-with-PyTorch》
《计算机视觉-算法与应用(中文版)》
《Learning OpenCV 4》
《AIGC:智能创作时代》杜雨+&+张孜铭
《AIGC原理与实践:零基础学大语言模型、扩散模型和多模态模型》
《从零构建大语言模型(中文版)》
《实战AI大模型》
《AI 3.0》

http://www.jsqmd.com/news/299105/

相关文章:

  • 慢充3.3kW占20%,普通7kW占50%,快充11kW占20%,超充20kW占10
  • 2026年青少年心理辅导优选名单,口碑机构来助力,家庭教育指导/叛逆孩子教育/青少年心理咨询,青少年心理辅导学校排名
  • 完整教程:目前流行的前端框架
  • 电力市场出清程序。 IEEE14节点考虑输电阻塞,求解机组边际电价和节点边际电价。 采用拉格朗...
  • 单北斗GNSS在桥梁和地质灾害变形监测中的应用与发展
  • 【LeetCode】91. 解码方法 - 教程
  • 2026 主流GEO服务商全景图谱,企业GEO服务商选型指南
  • 三相与两相步进方案的矢量控制及超前角控制:内置微控制器的技术解析
  • 光伏储能交直流微电网matlab/simulink仿真,风光储能联合发电系统simulink仿...
  • 双亲表示法构造树-----Java实现
  • KiCad V10新特性前瞻
  • 电气设计的隐藏外挂:1:1元器件图库实战
  • 基于传统材料力学势能法的健康齿轮时变啮合刚度数值分析
  • Product Hunt 每日热榜 | 2026-01-25
  • 构建 OpenHarmony 跨设备任务协同中心:Flutter 实现多端任务流转与状态同步
  • 构建 OpenHarmony 智能场景自动化配置面板:Flutter 实现可视化规则编排
  • Simulink双Y-30度六相感应电机模型,matlab18B版本。 六相交流供电
  • 强烈安利8个一键生成论文工具,继续教育学生论文写作必备!
  • ubuntu_server安装教程
  • 基于深度学习的 pcb 缺陷检测系统
  • 基于单片机的汽车倒车雷达超声波测距系统设计
  • 2025年市面上热门的自动化立体库制造企业怎么选,轻型货架/隔板货架/仓储货架/中型货架,自动化立体库供应厂家哪家强
  • JWT 解码工具
  • 基于深度学习的电动车头盔检测系统
  • keycloak测试11.0.2 for windows
  • 基于深度学习的番茄检测系统
  • 基于深度学习的肺部病变检测系统
  • 得到节点Device (P2P0)的子节点Device (S1F0)的PCI地址
  • 导师严选2026继续教育一键生成论文工具TOP9:学术写作全维度测评
  • 开源DTU全套方案详解:原理图设计、PCB布局、BOM清单、上位机源码及Keil嵌入式源码集成