当前位置: 首页 > news >正文

深度学习概述

一、神经网络(Neural Network, NN)

  深度学习的理论基础是神经网络,而神经网络的基本组成单元是神经元,这些概念都是借鉴于生物学中的神经网络的概念,神经元是人体神经系统的基本组成单元,神经系统包含脑、脊髓等,这些组织是人体的控制系统,控制着人的生理、心理活动,而AI仿生的是人脑,作为机器脑控制着机器设备。图1将生物学与深度学习的神经元概念进行了对比,可见深度学习的神经元与生物学的神经元功能和结构都是非常相似的,每个神经元都由输入(树突)、处理函数(细胞体)、输出(末稍)三部分构成。

image

图1 生物学与深度学习神经元概念对比

  深度学习里的神经元,可用一个激活函数和一个线性函数联合表达,即:

y = f(wx + b), f = relu、sigmoid、tanh等函数,式中输入、输出均为向量。

  有了神经元,神经元的输出(末稍)连接到其神经元的输入(树突),则进一步连接成网络,即神经网络,图2展示了生物学与深度学习神经网络概念的对比。

image

image

 图2 生物学与深度学习神经网络概念对比

二、深度学习

  深度学习,英文全称为Deep Learning,特指基于深层神经网络模型和方法的机器学习。它是在统计机器学习、人工神经网络等算法模型基础上,结合当代大数据和大算力的发展而发展出来的,即深度学习的三要素为算法、数据、算力。

  图3描述了深度学习技术路线的发展简图。

 

图3 深度学习技术发展简图

  作为深度学习之父们中的LeCun在《Gradient-Based Learning Applied to Document Recognition》中告诉我们,无论什么样的机器学习模型,无外乎图4中的机器学习模型范式,第一步是提取输入数据的特征,俗称特征工程,第二步是训练分类器或回归器(模型)。

 

图4 机器学习模型范式

       图5是对图4机器学习模型流程的细化,输入数据需先经过数据预处理阶段,将缺失的值该补充的补充,该统一量纲的统一量纲,该归一化/标准化的,就归一化/标准化,以使输入数据满足模型的要求。然后数据流进入特征工程阶段,通过人为手工挑选、组合原始特征,或模型自己学习如何挑选及组合特征,然后将特征工程的处理结果,输入给模型做训练或推理计算,并得到最终结果。而成像处理,属于特征工程阶段的人为干预产生更利于模型计算的特征。

图5 机器学习数据处理流程

三、计算机视觉(CV)

  图6描述了起源于图像分类的主要计算机视觉类任务。

图6 发源于图像分类的计算机视觉任务

  为什么如此划分?因为在更早的时候,AI圈还停留在机器学习的时代,那时候的算法只有KNN、决策树、朴素贝叶斯和SVM等,外加AI界的设计模式:集成学习,搞出了一些组合式算法,比如随机森林、XGBoost等,这些算法大多只能对结构化(一张二维表)的数据进行处理,而对图像、音频、视频类的数据,往往不太胜任,要么是计算精度不够,要么就是计算速度太慢,对于那个时代的王者SVM算法,其计算速度是其致命的硬伤,无法规避,导致今天其已经很少使用,只留下了算法思想的价值。

  加上算力和算据的极大限制,因此早期机器学习类的算法,大多只能对图像类任务进行较为简单的处理,比如输入一张较小的图像,将其用决策树或SVM等进行分类,然后用模式匹配等算法,找找图像里有没物体。

  进入到互联网时代后,尤其是移动互联网时代,算据规模接近天文数字,英伟达显卡提供了充足的算力,深度学习的出现,正所谓天时、地利、人和三者合一,将时代推进到了AI变革的时代,图像分类任务就成了最基本的视觉类任务,在一张图像被成功分类后,自然而然就想进一步知道图像中某个物体的具体位置在哪,这个物体的类别是什么,这时候物体检测任务就呼之欲出了,而有了物体检测任务,又想更进一步将物体内容同背景区隔开,这个就是分割任务,图7描述发CV各任务的演进及区别。

 

image

 图7 CV各任务的演进及区别

  分割任务又分为语义分割和实例分割,语义分割是不同类别的物体,用不同的颜色区分,相同类别的物体,用同一颜色,即语义分割,只区分不同物体的类别。而实例分割,无论物体间的类别是否相同,都将它们视为不同的,用不同颜色标识。Meta更是打着分割万物的旗号,推出了SAM模型,这种模型不再是简单的语义分割、实例分割和全景分割,而是这几种任务的结合体,图8展现了语义分割、实例分割、全景分割不同的效果。

 

image

图8 左上:原图、右上:语义分割、左下:实例分割、右下:全景分割

  在所有的计算机视觉任务中,物体检测是很核心的,也是很基础的任务,从物体检测派生出了图像分割、人脸检测、OCR和物体跟踪这些任务。

四、自然语言处理(NLP)

       自然语言处理,英文简称NLP,其处理的目标数据是序列(时序)数据,比如文本、语音、信号等,但凡有时序关系的数据,均可用NLP来处理。

4.1 RNN(循环神经网络)

       早期的NLP技术是RNN,中文名为循环神经网络,RNN通过在时间轴上复用同一神经网络,从而能够在一定程度上处理时序数据内部的时序特征,图9左图为RNN最原始的结构,为了直观,按时间轴展开为图9右图所示的结构。

图9 RNN架构原理

  RNN的缺点是不能并行处理时序数据,因此不能利用GPU强大的并行处理能力,导致导致处理效率比较低,另一个比较严重的问题,是RNN处理比较长的序列时,容易在模型训练时,产生梯度消失的现象,在推理时,容易忘记之前的序列元素信息,因为RNN架构设计,是用一个特定长度的向量存储中间结果信息,在长序列时,因向量长度有限,其所能容纳的信息容量也有限,所以在处理长序列时,会出现信息遗忘的问题。

4.2 LSTM(长短期记忆网络)

       为了改善RNN记忆容量有限的问题,LSTM网络引入了短期记忆和长期记忆的概念,图10展示了LSTM的模型结构,虽然LSTM在一定程度上缓解了长距离信息遗忘的问题,但该问题在长序列数据中仍然大量存在。

4.3 Attention(注意力机制)

       Attention机制,即注意力机制,是大模型的理论基础和起源,由Google在2017年的论文《Attention Is All You Need》中正式提出,以图11为例说明注意力的的作用,给定一张图像,通过一系列计算,以获取图像中在焦点(Focus)。

image

图11 Attention作用图解

       Attention机制最早是作为RNN/LSTM/GRU的组件形式存在,如图12所示。

image

图12 RNN/LSTM + Attention架构原理

 

http://www.jsqmd.com/news/543235/

相关文章:

  • OpenClaw敏感信息过滤:Qwen3-32B镜像内容审查技能开发
  • OpenClaw安全防护指南:百川2-13B-4bits量化模型权限管控实践
  • 大众点评数据采集终极指南:5分钟搞定动态字体加密反爬
  • OpenClaw自动化测试:QwQ-32B驱动浏览器操作与结果验证
  • nli-distilroberta-base商业应用:广告文案与目标人群画像逻辑契合度分析
  • RegionRAG: Region-level Retrieval-Augumented Generationfor Visually-Rich Documents
  • **发散创新:基于Python与ROS的自主导航系统设计与实践**在智能机器人、无
  • Minecraft世界修复终极指南:Region Fixer 0.3.7全面解析
  • Qwen3.5-4B模型Qt图形界面开发:智能控件布局与事件处理代码生成
  • OneAPI 百度文心一言ERNIE-Bot接入:千帆平台Key对接指南
  • 抖音直播录制终极指南:一键搞定多平台直播内容保存
  • 京东e卡秒回收,小白也能轻松操作! - 团团收购物卡回收
  • Qwen2.5-Coder-1.5B应用场景:快速生成Python脚本实战
  • 新手福音:通过快马平台生成cherry studio示例项目轻松入门低代码开发
  • 小程序搭建和APP开发有什么本质区别?
  • HC12无线模块底层驱动与FreeRTOS集成实战
  • 2026年法国消防泵资深厂商排名,值得选购的品牌有哪些 - mypinpai
  • Python实战:用PyWavelets搞定信号突变检测(附完整代码)
  • SDMatte抠图质量评估体系:Alpha Matte清晰度/边缘连续性/透明度三维度
  • 单相继电保护中快速电流保护的Matlab/Simulink仿真及不同线路故障分析
  • 突破数字音乐加密限制:Unlock Music技术方案与实践指南
  • 从李宏毅课程到实战:如何避免GAN的Mode Collapse和Mode Dropping?
  • 5种场景突破GitHub访问瓶颈:开发者必备资源加速方案
  • 来料检验(IQC,Incoming Quality Control)是质量管理体系中的第一道关键关卡,主要用于确保供应商来料符合质量要求,防止不良流入生产线。
  • 深挖RTO LEL在线监测系统:哪些企业实力雄厚、售后无忧? - 品牌推荐大师
  • 3步构建个人离线阅读系统:开源工具的创新解法
  • LabVIEW毫欧电阻高精度测量
  • 长轴深井泵选购要注意什么,南京汪洋制泵靠谱吗? - 工业设备
  • 保姆级教程:用Kali Linux和Metasploit搞定DC-1靶场(从信息收集到提权)
  • springboot框架社区物业车位缴费房屋充电桩管理系统 论文