当前位置：首页 > news >正文

深度学习概述

news 2026/7/3 15:27:03

一、神经网络(Neural Network, NN)

　　深度学习的理论基础是神经网络，而神经网络的基本组成单元是神经元，这些概念都是借鉴于生物学中的神经网络的概念，神经元是人体神经系统的基本组成单元，神经系统包含脑、脊髓等，这些组织是人体的控制系统，控制着人的生理、心理活动，而AI仿生的是人脑，作为机器脑控制着机器设备。图1将生物学与深度学习的神经元概念进行了对比，可见深度学习的神经元与生物学的神经元功能和结构都是非常相似的，每个神经元都由输入(树突)、处理函数(细胞体)、输出(末稍)三部分构成。

图1 生物学与深度学习神经元概念对比

　　深度学习里的神经元，可用一个激活函数和一个线性函数联合表达，即：

y = f(wx + b), f = relu、sigmoid、tanh等函数，式中输入、输出均为向量。

　　有了神经元，神经元的输出(末稍)连接到其神经元的输入(树突)，则进一步连接成网络，即神经网络，图2展示了生物学与深度学习神经网络概念的对比。

图2 生物学与深度学习神经网络概念对比

二、深度学习

　　深度学习，英文全称为Deep Learning，特指基于深层神经网络模型和方法的机器学习。它是在统计机器学习、人工神经网络等算法模型基础上，结合当代大数据和大算力的发展而发展出来的，即深度学习的三要素为算法、数据、算力。

　　图3描述了深度学习技术路线的发展简图。

图3 深度学习技术发展简图

　　作为深度学习之父们中的LeCun在《Gradient-Based Learning Applied to Document Recognition》中告诉我们，无论什么样的机器学习模型，无外乎图4中的机器学习模型范式，第一步是提取输入数据的特征，俗称特征工程，第二步是训练分类器或回归器(模型)。

图4 机器学习模型范式

图5是对图4机器学习模型流程的细化，输入数据需先经过数据预处理阶段，将缺失的值该补充的补充，该统一量纲的统一量纲，该归一化/标准化的，就归一化/标准化，以使输入数据满足模型的要求。然后数据流进入特征工程阶段，通过人为手工挑选、组合原始特征，或模型自己学习如何挑选及组合特征，然后将特征工程的处理结果，输入给模型做训练或推理计算，并得到最终结果。而成像处理，属于特征工程阶段的人为干预产生更利于模型计算的特征。

图5 机器学习数据处理流程

三、计算机视觉(CV)

　　图6描述了起源于图像分类的主要计算机视觉类任务。

图6 发源于图像分类的计算机视觉任务

　　为什么如此划分？因为在更早的时候，AI圈还停留在机器学习的时代，那时候的算法只有KNN、决策树、朴素贝叶斯和SVM等，外加AI界的设计模式：集成学习，搞出了一些组合式算法，比如随机森林、XGBoost等，这些算法大多只能对结构化(一张二维表)的数据进行处理，而对图像、音频、视频类的数据，往往不太胜任，要么是计算精度不够，要么就是计算速度太慢，对于那个时代的王者SVM算法，其计算速度是其致命的硬伤，无法规避，导致今天其已经很少使用，只留下了算法思想的价值。

　　加上算力和算据的极大限制，因此早期机器学习类的算法，大多只能对图像类任务进行较为简单的处理，比如输入一张较小的图像，将其用决策树或SVM等进行分类，然后用模式匹配等算法，找找图像里有没物体。

　　进入到互联网时代后，尤其是移动互联网时代，算据规模接近天文数字，英伟达显卡提供了充足的算力，深度学习的出现，正所谓天时、地利、人和三者合一，将时代推进到了AI变革的时代，图像分类任务就成了最基本的视觉类任务，在一张图像被成功分类后，自然而然就想进一步知道图像中某个物体的具体位置在哪，这个物体的类别是什么，这时候物体检测任务就呼之欲出了，而有了物体检测任务，又想更进一步将物体内容同背景区隔开，这个就是分割任务，图7描述发CV各任务的演进及区别。

图7 CV各任务的演进及区别

　　分割任务又分为语义分割和实例分割，语义分割是不同类别的物体，用不同的颜色区分，相同类别的物体，用同一颜色，即语义分割，只区分不同物体的类别。而实例分割，无论物体间的类别是否相同，都将它们视为不同的，用不同颜色标识。Meta更是打着分割万物的旗号，推出了SAM模型，这种模型不再是简单的语义分割、实例分割和全景分割，而是这几种任务的结合体，图8展现了语义分割、实例分割、全景分割不同的效果。

图8 左上：原图、右上：语义分割、左下：实例分割、右下：全景分割

　　在所有的计算机视觉任务中，物体检测是很核心的，也是很基础的任务，从物体检测派生出了图像分割、人脸检测、OCR和物体跟踪这些任务。

四、自然语言处理(NLP)

自然语言处理，英文简称NLP，其处理的目标数据是序列(时序)数据，比如文本、语音、信号等，但凡有时序关系的数据，均可用NLP来处理。

4.1 RNN(循环神经网络)

早期的NLP技术是RNN，中文名为循环神经网络，RNN通过在时间轴上复用同一神经网络，从而能够在一定程度上处理时序数据内部的时序特征，图9左图为RNN最原始的结构，为了直观，按时间轴展开为图9右图所示的结构。

图9 RNN架构原理

　　RNN的缺点是不能并行处理时序数据，因此不能利用GPU强大的并行处理能力，导致导致处理效率比较低，另一个比较严重的问题，是RNN处理比较长的序列时，容易在模型训练时，产生梯度消失的现象，在推理时，容易忘记之前的序列元素信息，因为RNN架构设计，是用一个特定长度的向量存储中间结果信息，在长序列时，因向量长度有限，其所能容纳的信息容量也有限，所以在处理长序列时，会出现信息遗忘的问题。