当前位置: 首页 > news >正文

图像分割:目标检测、语义分割和实例分割

内容来自:《深度学习与计算机视觉》

如今,图像分类、目标检测、语义分割、实例分割和目标追踪是计算机视觉的热门应用方向。其中,图像分类与目标检测是最基础的应用,在此基础上派生出了语义分割、实例分割和目标跟踪等相对高级的应用。

语义分割与实例分割是将图像中的像素点分到对应的类别中,从而实现图像前景和背景分离的目的。

目标追踪是指跟踪图像序列或视频中的目标,从而定位目标在图像帧中的运行轨迹

语义分割、实例分割和目标跟踪涉及的内容较多,其难度也较大。本章将介绍部分典型模型的原理和使用方法。

本章内容建立在前两章的基础上,建议在充分理解图像分类和目标检测的原理之后再进行本章的学习。

1 图像分割

图像分割(Segmentation)是将图像划分成若干个子区域的过程,划分后的子区域分别属于不同的类别或不同的个体。传统的图像分割方法有以下几种:

  • 阈值分割:根据色彩或灰度特征设置阈值,把图像像素点分为若干类别
  • 区域分割:根据区域特征的相似性将图像划分成不同的区块
  • 边缘分割:根据边缘特征(像素的灰度等级或结构突变的地方)将图像划分成不同的区块。

传统的图像分割方法是指根据像素灰度值分布的特征进行区域划分。

在深度学习时代,一些模型(如卷积神经网络)可以识别出图像中每个像素所属的目标,从而诞生了语义分割(Semantic Segmentation)和实例分割(Instance Segmentation)。

1.1 目标检测、语义分割和实例分割

从广义来看,目标检测也属于图像分割的一种。

只是目标检测是**以边界框(bbox)**为单位区分不同边界框内部的目标对象;

语义分割和实例分割则是以像素为单位区分每个像素点属于哪个目标对象或分类。

语义分割和实例分割较为相似,都是将图像中的每个像素点对应到不同的类别上。

二者的区别仅在于,语义分割不区分同一个类别内的对象个体,而实例分割则区分不同的对象个体。

目标检测找到的是一块矩形区域,同时识别出这个区域的物体是瓶子还是杯子;

语义分割找到的是像素点集合,同时识别出这些像素组成的物体是瓶子还是杯子;

实例分割在语义分割的基础上同时区分出每个个体,如像素点组成物体的是杯子A还是杯子B。

图像掩膜(Mask)是一个和原图大小相同的二值图像,它由0和1两种值组成,在图像处理中常用来提取感兴趣的区域(ROI)。图像掩膜是一种滤镜模板,可对图像进行滤镜操作,即将感兴趣的区域或目标从原图中截取出来。

图像掩膜的运算过程是将原图中的像素点和掩膜中对应的像素点进行“与”运算,比如一个3×3的图像与3×3的掩膜,其运算过程如图10.2所示。

  • 图像掩膜中的值为1时,原图中该位置的像素点的值保持不变;
  • 图像掩膜中的值为0时,原图中该位置的像素点的值为0。

可以通过深度学习模型生成一个图像掩膜,然后使用该图像掩膜对原图进行分割,

1.2 FCN模型

全卷积神经网络(Fully Convolutional Network,FCN)是首次使用深度学习进行语义分割的模型,它确定了后续图像分割模型的基本框架。

FCN模型的思想是先通过卷积与池化对图像进行下采样,提取图像的特征,然后再通过反卷积进行上采样,生成与原始图像大小相同的图像,最后对生成的图像中的每个像素进行分类而生成分割图。

FCN模型全部由卷积层组成,因此称为全卷积神经网络,其结构FCN模型有3个特点,分别是全卷积化,反卷积和跨层融合。

  • 使用8个卷积层进行特征提取。
  • 对特征图进行上采样,并通过Softmax进行像素点分类。
  • 根据图像中的不同目标,生成图像掩膜并输出分割结果。

1.全卷积化

在通常情况下,CNN模型最后会使用全连接层进行分类,由于全连接层需要固定维度的输入,因此CNN模型只能处理固定大小的图像。FCN模型将CNN模型最后面的几个全连接层全部换成卷积层,由于FCN模型没有全连接层,因此它可处理任意大小的图像。如图10.5所示,灰色方框部分是CNN模型与FCN模型不同的地方:

  • FCN模型将CNN模型的全连接层改为卷积层。
  • FCN模型增加了反卷积操作,实现了上采样,生成与原图同样大小的图像。
  • FCN模型是对每个像素点进行分类,而CNN模型是对整幅图像进行分类。

2.反卷积

卷积可以将3×3的矩阵对应到特征图上的一个点,而反卷积可以将特征图上的一个点展开,得到一个3×3的矩阵。

由于FCN模型会进行多次卷积或池化操作,最后得到的特征图分辨率远远小于原始图像,并且会丢失很多原始图像的信息,而如果直接使用特征图进行分类,则效果会很差。

因此,FCN模型先使用反卷积实现上采样,通过特征图生成一幅和原始图尺寸相同的图像,然后再对这个图像的每个像素进行分类,从而生成图像掩膜。

反卷积运算和卷积运算类似,都是将矩阵及其对应位置的像素值相乘后再相加。

在FCN中,反卷积的运算过程是先在特征图上的像素点之间补上一定数量的0,然后再进行卷积运算,这样可以将特征图放大到与原图同样的大小。

3.跨层融合

原始图像经过多次卷积和池化后,尺寸会变得很小。例如,在经过模型的pool5层处理后,输出的特征图只有原图的1/32,这时原图中的很多细节已经不能反映在特征图上了。

FCN模型通过跨层融合的方式实现精细分割。如图10.7所示,跨层融合具体包括FCN-32s、FCN-16s和FCN-8s共3种融合方案。

  • FCN-32s方案:首先直接对pool5输出的特征图进行32倍上采样,得到与原图同样大小的待分割图,然后使用Softmax对待分割图的每个点进行分类预测,从而得到分割图(输出的预测图)​。

  • FCN-16s方案:首先对pool5输出的特征图进行2倍上采样,然后与pool4输出的特征图逐点相加,接着进行16倍上采样,得到与原图同样大小的待分割图,最后使用Softmax对待分割图的每个点进行分类预测,从而得到分割图(输出的预测图)​。

  • FCN-8s方案:首先对pool5输出的特征图进行2倍上采样,然后与pool4输出的特征图逐点相加,接着进行2倍上采样并与pool3输出的特征图逐点相加,接着再进行8倍上采样,得到与原图同样大小的待分割图,最后使用Softmax对待分割图的每个点进行分类预测,从而得到分割图(输出的预测图)​。

4.总结

FCN模型先进行一系列的卷积与池化操作,实现图像的下采样,以提取图像中的目标特征,然后再通过反卷积实现上采样,将特征图放大到与原图同样大小的尺寸,并对每个像素点进行分类,从而实现图像的分割。

FCN是首个图像语义分割的深度学习模型,它可以实现像素级的分类。FCN也是一个端到端的模型,使用起来非常方便,后来很多分割模型受到了FCN模型的启发。

FCN模型会忽略图像的细节信息,同时它也没有考虑图像的全局特征,这会导致其预测的目标边界不够清晰。另外,FCN模型不能区分不同的个体,不能做到实例级别的分割。

1.3 Mask R-CNN模型

Mask R-CNN是建立在Faster R-CNN基础上的实例分割模型,其结构如图10.8所示。

该模型结构包含两部分:一部分使用Backbone(主干模型,如AlexNet等)提取特征,另一部分使用Head(主干模型提取到的特征)对每一个目标区域(ROI)进行分类、边框回归和图像掩膜预测。

  • Mask R-CNN模型使用ROI Align来代替Faster R-CNN中的ROI Pooling。
  • Mask R-CNN模型引入了语义分割分支输出图像掩膜。

下面列出几个关键点

  • 1.ROI Pooling与量化误差
  • 2.ROI Align
  • 3.线性插值
  • 4.双线性插值

Mask R-CNN是在Faster R-CNN的基础上进行改进而得到的实例分割模型。

MaskR-CNN模型使用ROI Align代替Faster R-CNN模型中的ROI Pooling,以减少量化 误差,并通过增加分割分支实现像素的分类,从而实现图像分割。

Mask R-CNN是一种two-stage图像分割模型。相比one-shot方式,Mask R-CNN模型的计算量更大,不适合用于实时性要求较高的场景。

Mask R-CNN模型利用Faster R-CNN模型得到的边界框来区分实例,并对边界框内的实例进行分割。如果边界框误差较大,则分割结果也会有较大的误差。

http://www.jsqmd.com/news/373970/

相关文章:

  • 2026年全屋定制品牌发布:以木里木外为代表的标杆企业深度解析 - 品牌推荐
  • 2026年热门的网眼布/座椅网眼布厂家推荐及选择参考 - 品牌宣传支持者
  • 芯片制造领域,JAVA网页上传大文件有何解决方案?
  • 2026年内蒙古劳务派遣服务公司深度评测:聚焦专业价值与合规运营 - 品牌推荐
  • 聊聊佛山吸塑公司,乙方吸塑的竞争优势与PP吸塑质量分析 - 工业品牌热点
  • 2026年比较好的车规级载带/压纹载带高口碑厂家推荐(评价高) - 品牌宣传支持者
  • 2026年靠谱的稀土大粒径碳酸铈/成都稀土硫酸锆厂家推荐及选择参考 - 品牌宣传支持者
  • 自动化喷涂设备哪家好,聊聊东莞霞晖自动化性价比怎么样 - 工业推荐榜
  • 2026年比较好的3d学生枕头/3D婴儿枕头最新TOP厂家排名 - 品牌宣传支持者
  • 2026年全屋定制品牌测评报告:基于用户调研的口碑维度深度解析。 - 品牌推荐
  • 事件委托1
  • 2026年热门的常温常压喷流染布机/纱线染布机厂家推荐及选择指南 - 品牌宣传支持者
  • 2026年全屋定制品牌推荐榜单:一体化解决方案与可持续性双维度评估的行业洞察 - 品牌推荐
  • 2026年知名的耐震压力表/远传压力表厂家推荐及选择参考 - 品牌宣传支持者
  • 做了10年HRD告诉你:2026年筛选内蒙古劳务派遣服务公司的关键避坑点 - 品牌推荐
  • NoETL 指标平台与现有数据中台、治理体系的融合之道
  • 让应用为协作而生:BeeWorks如何重塑企业数字应用生态? - 教程
  • GEO优化公司推荐:企业在AI搜索时代如何判断专业服务商? - 品牌观察员小捷
  • 2026年质量好的低浴比筒子纱染色机/染色机高口碑厂家推荐(评价高) - 品牌宣传支持者
  • 2026年热门的投入式液位压力变送器/数字压力变送器优质供应商推荐(信赖) - 品牌宣传支持者
  • 2000个红包封面,免费领取,见者有份
  • 2026年比较好的稀土氯化铈/稀土无水氯化镧厂家选购全指南(完整版) - 品牌宣传支持者
  • 做了10年HR决策者,我这样筛选2026年内蒙古劳务派遣服务公司 - 品牌推荐
  • 2.12
  • 2026年沉淀硬化钢口碑排行,15 - 5PH、s15700批量定制服务推荐 - 工业品网
  • 2026年口碑好的乒乓球有缝球/乒乓球训练球厂家用户好评推荐 - 品牌宣传支持者
  • 2026年内蒙古劳务派遣服务公司选择:一位资深HR总监的实地调研分析 - 品牌推荐
  • 2026年性价比高的不锈钢提锅供应商推荐,潮州浩然五金是优选 - mypinpai
  • 2026年贵州可靠的标识定制品牌,古奥标识场景标识全案服务上榜 - myqiye
  • 写作小白救星 AI论文软件 千笔·专业论文写作工具 VS 锐智 AI,MBA专属高效之选!