当前位置: 首页 > news >正文

深度学习笔记:从入门到核心概念

一份适合自学与复习的深度学习笔记,涵盖基础、神经网络、训练技巧及经典架构。


目录

  1. 什么是深度学习
  2. 神经网络基础
  3. 激活函数
  4. 损失函数与反向传播
  5. 优化算法
  6. 正则化与防止过拟合
  7. 卷积神经网络(CNN)
  8. 循环神经网络(RNN)与 LSTM
  9. Transformer 简介
  10. 训练实用技巧
  11. 推荐学习资源

1. 什么是深度学习

深度学习是机器学习的一个子集,基于多层神经网络自动从数据中学习层次化特征表示。

  • 与传统机器学习区别:特征工程自动化,端到端学习。
  • 核心要素:数据、模型架构、损失函数、优化算法。

2. 神经网络基础

神经元模型

一个神经元接收多个输入 (x_1, x_2, ...),加权求和后加偏置,再通过激活函数输出:

[
y = f\left(\sum_i w_i x_i + b\right)
]

前馈神经网络(FNN)

  • 输入层 → 隐藏层 → 输出层
  • 每层由若干神经元组成,层间全连接。

前向传播

数据从输入层逐层向前计算,得到预测值。


3. 激活函数

引入非线性,使网络能够拟合复杂函数。

函数 公式 优点 缺点
Sigmoid (\sigma(x) = \frac{1}{1+e^{-x}}) 输出(0,1),适合二分类输出层 梯度饱和,易造成梯度消失
Tanh (\tanh(x) = \frac{e^x - e{-x}}{ex + e^{-x}}) 输出(-1,1),零中心 仍有梯度饱和问题
ReLU (\text{ReLU}(x) = \max(0, x)) 计算快,缓解梯度消失,稀疏激活 神经元“死亡”(梯度恒为0)
Leaky ReLU (\max(\alpha x, x)) 缓解死亡ReLU 需调α参数
Softmax (\frac{e^{z_i}}{\sum_j e^{z_j}}) 输出概率分布 仅用于分类输出层

4. 损失函数与反向传播

常用损失函数

  • 均方误差 (MSE):回归问题,(L = \frac{1}{n}\sum (y - \hat{y})^2)
  • 交叉熵损失:分类问题,(L = -\sum y_i \log \hat{y}_i)

反向传播

  • 链式法则计算损失对各层参数的梯度。
  • 从输出层向输入层逐层计算梯度,更新权重。

核心公式(简化):
(\frac{\partial L}{\partial w} = \frac{\partial L}{\partial \hat{y}} \cdot \frac{\partial \hat{y}}{\partial z} \cdot \frac{\partial z}{\partial w})


5. 优化算法

用于更新模型参数以最小化损失函数。

梯度下降变体

  • BGD:批量梯度下降,使用全量数据,稳定但慢。
  • SGD:随机梯度下降,单样本更新,快但不稳定。
  • Mini-batch GD:小批量,最常用。

自适应优化器

优化器 特点 适用场景
Momentum 加惯性,加速收敛 标准SGD改进
AdaGrad 自适应学习率,梯度平方累积 稀疏特征
RMSProp 指数加权移动平均,修正AdaGrad 非凸优化
Adam Momentum + RMSProp,最流行 大多数任务默认选择

推荐开始就用 Adam,学习率默认 0.001。


6. 正则化与防止过拟合

方法 原理
L1/L2 正则化 损失函数加惩罚项 (\lambda |w|_2^2) 或 (\lambda |w|_1)
Dropout 训练时随机丢弃部分神经元,相当于集成学习
Batch Normalization 归一化每层输入,加速收敛,有轻微正则效果
早停 (Early Stopping) 验证集不改善时停止训练
数据增强 对输入做随机变换(图像翻转、裁剪等)

7. 卷积神经网络(CNN)

适合处理网格状数据(图像、视频)。

核心层

  • 卷积层:使用滤波器(卷积核)提取局部特征,参数共享。
  • 池化层:下采样(最大池化、平均池化),降低维度。
  • 全连接层:最后用于分类或回归。

经典 CNN 架构

  • LeNet-5:手写数字识别。
  • AlexNet:引入 ReLU、Dropout、GPU 并行。
  • VGG:使用小卷积核(3x3),层次更深。
  • ResNet:残差连接解决梯度退化,可训练极深网络。
  • Inception / GoogLeNet:多尺度卷积并行。

8. 循环神经网络(RNN)与 LSTM

适合序列数据(文本、时间序列)。

RNN

  • 隐藏状态传递历史信息。
  • 问题:长期依赖导致的梯度消失/爆炸。

LSTM(长短期记忆网络)

引入门控机制:遗忘门、输入门、输出门,有效解决长期依赖。

GRU

LSTM 的简化版,参数更少,性能相近。

应用:语言模型、机器翻译、情感分析、股票预测。


9. Transformer 简介

当前 NLP 与多模态的主流架构,完全基于注意力机制,抛弃循环。

核心组件

  • 自注意力 (Self-Attention):计算序列中每个位置对其他位置的权重,捕捉长距离依赖。
  • 多头注意力:多组注意力并行,学习不同子空间信息。
  • 位置编码:弥补顺序信息。
  • 前馈网络 + 残差 + 层归一化

经典模型

  • BERT:双向编码器,适合自然语言理解。
  • GPT:自回归解码器,生成式任务。
  • ViT:Transformer 用于图像分类。

10. 训练实用技巧

  1. 数据预处理:归一化、中心化(均值减法)。
  2. 权重初始化:Xavier / He 初始化(随激活函数选择)。
  3. 学习率调度:阶梯下降、余弦退火、Warmup。
  4. 梯度裁剪:防止梯度爆炸(尤其 RNN)。
  5. 使用验证集调超参:学习率、batch size、网络深度。
  6. 监控训练曲线:损失下降慢 → 学习率过小或架构弱;训练好测试差 → 过拟合。

11. 推荐学习资源

  • 课程
    • 吴恩达 《Deep Learning Specialization》
    • 李沐 《动手学深度学习》
  • 书籍
    • 《Deep Learning》(Ian Goodfellow)
    • 《动手学深度学习》
  • 代码
    • PyTorch 官方教程
    • TensorFlow 官方示例

最后一句:深度学习需要理论与实践并重。动手跑代码、调试模型,才能真正理解这些笔记中的每个概念。

本笔记持续更新,欢迎收藏和分享。

http://www.jsqmd.com/news/775980/

相关文章:

  • 从HelloWorld到GoodNight:手把手教你用OllyDBG修改PE文件字符串(附FOA/VA/RVA换算)
  • 挤馅机源头厂家:产品竞争力提升与市场拓展策略深度解析
  • 2026四川粘钢加固服务商优选:5 家正规靠谱企业,专业做房屋结构加固 - 深度智识库
  • Hunyuan-MT-7B内容出海应用:自媒体一键生成英/日/韩/法/西多语版本
  • Windows鼠标指针方案一键切换:原理、工具与自定义指南
  • 拨开“分子递送迷雾”——百代生物以底层创新重塑核酸与蛋白质转染试剂版图 - 资讯焦点
  • 告别Adobe Acrobat!用Aspose.PDF for .NET 23.1.0实现PDF文档的自动化处理(附代码示例)
  • TranslucentTB终极指南:3步解决任务栏透明美化启动失败问题
  • 2026年陕西画册印刷厂、图文快印代工与不干胶标签印刷全景指南 - 精选优质企业推荐官
  • CTF密码学实战:当RSA公钥e过大时,如何用Boneh-Durfee攻击还原DASCTF的so-large-e题目
  • 大人吃的鱼油什么牌子好?2026知名鱼油品牌推荐:心脑养护效果科学温和超明显 - 资讯焦点
  • 户外工地长效防晒霜,4款超绝的全波段防护不惧晒黑的高口碑防晒 - 全网最美
  • 2026 南京大克重黄金上门回收:福正美双人作业,全程录像备查 - 福正美黄金回收
  • 深沟球轴承选型与应用技术全解析 附厂家实测案例 - 资讯焦点
  • Spring Boot 3.2升级踩坑记:MyBatis-Plus依赖不兼容导致项目启动报错,我是这样解决的
  • 保姆级教程:用FreeSWITCH图形化界面,把办公室的讯时FXO网关注册到公网IPPBX
  • NCMDump终极指南:三步实现网易云音乐NCM转MP3免费转换
  • 开题一次过的秘密:虎贲等考 AI 开题报告功能,让导师零驳回
  • 2026年一次性内裤选购指南:纯棉材质与无菌生产如何重新定义出行干净标准 - 资讯焦点
  • 开源智能仪表盘OpenJarvisDashboard:从模块化设计到实战部署全解析
  • 保姆级教程:用TensorRT C++ API将ONNX模型转成Engine文件(附完整代码)
  • 为开源Agent框架OpenClaw配置Taotoken作为自定义模型提供商
  • 2026年论文90%AIGC率怎么破?实测10款降ai率工具(含免费),降低ai率实用指南 - 降AI实验室
  • 2026年沙场筛沙机式厂家推荐:邢台润然机械制造厂,自动/水洗/手推多种型号可选,适配不同场景 - 品牌推荐官
  • 2026年西安画册印刷厂与活页环装定制完全指南|西安松林森彩印官方对接 - 精选优质企业推荐官
  • CLIP-GmP-ViT-L-14图文检索实战:单图多文批量匹配详细步骤
  • 实证论文卡壳在数据分析?虎贲等考 AI:一键跑出规范结果,第四章直接复制用
  • 2026年西安印刷厂选型指南:从活页环装到不干胶标签的一站式解决方案 - 精选优质企业推荐官
  • TargetMol疾病造模——PMA(Cat。 No。 TQ0198, Cas。 16561-29-8),经典PKC激活剂 - 陶术生物
  • 告别默认蓝:手把手教你为WPF项目定制一套专属的HandyControl主题色(附完整配色方案)