深度学习篇---图像分类、目标检测和图像分割任务对比
在计算机视觉领域,图像分类、目标检测和图像分割是三个核心的基础任务,它们层层递进,对图像的理解也越来越精细。而标注框则是连接这些任务,特别是目标检测和实例分割,最关键的数据表达形式。
下面我来为你详细介绍这三者的区别,以及标注框的相关知识,最后同样会为你梳理一张总结框图。
🖼️ 三大核心任务:从“看图说话”到“像素级理解”
这三个任务的核心区别,在于它们对图像内容进行“理解”和“描述”的精细程度。
1. 图像分类
这是最基础的任务,回答“这张图里有什么?”这个全局性问题。
输入:一整张图片。
输出:一个类别标签,或者多个类别标签的概率分布。
核心:将整张图作为一个整体,理解其全局语义内容,不关心物体在哪里、有几个。
形象理解:就像给一张图打上标签。你问AI这是什么,它回答“一只猫”。
代表模型:AlexNet、VGG、ResNet、Vision Transformer (ViT)。
2. 目标检测
在分类的基础上更进一步,回答“图里有什么,它们分别在哪里?”。
输入:一整张图片。
输出:一个列表,包含了图中每个感兴趣物体的“边界框”和对应的“类别标签”。有时还包括置信度分数。
核心:不仅要认出物体,还要用矩形框准确定位每个物体的空间位置。
形象理解:用不同颜色的矩形框把图中的猫、狗都框出来,并分别标上“猫”和“狗”。你不仅能知道有猫,还能知道它在图片的哪个区域。
代表模型:YOLO系列、Faster R-CNN、DETR (Detection Transformer)。
3. 图像分割
这是像素级的理解任务,追求最精细的描绘,回答“每个像素分别属于什么?”。它又可细分为:
语义分割:
问题:“图里的所有像素分别属于哪个类别?”
输出:一张与输入图像同尺寸的“掩码图”,每个像素被赋予一个类别标签(如0-背景,1-猫,2-草地)。
核心:区分不同类别的像素,但不区分同一类别的不同个体。图中所有“猫”的像素标签都一样。
代表模型:FCN、U-Net、DeepLab系列。
实例分割:
问题:“图里有哪些物体的实例?每个实例的精确轮廓是什么?”
输出:结合了检测与分割。会检测出每个物体实例,并为其生成一个精确到像素的二值掩码(Mask),同时区分同类个体(猫A vs 猫B)。
核心:这是目标检测(定位个体)和语义分割(描绘轮廓)的结合。
代表模型:Mask R-CNN、YOLACT。
全景分割:
问题:对图中所有像素进行全面彻底的理解。
输出:每个像素都必须被分配一个语义类别和一个实例ID。背景(如天空、草地)只分配语义类别,而可数物体(如猫、车)则同时分配语义类别和实例ID。
核心:语义分割 + 实例分割的统一。
代表模型:Panoptic FPN、Mask2Former。
总的来说,从图像分类到全景分割,计算机对图像的解析是一个从全局到局部,再到全局像素理解的过程。
📦 标注框基础知识:目标检测的基石
标注框是目标检测任务的“黄金标准”输出,也是模型训练时必须提供的数据形式。它用最简洁的几何图形——矩形,来近似表示物体的位置和大小。
1. 常见表示法
一个边界框通常由以下要素组成:
类别标签:框内物体的类别名称或ID,如
猫。置信度分数:预测阶段,模型会给出这个框内存在该类物体的概率。
坐标:定义矩形位置和大小的数字,主要有两种格式:
轴对齐边界框:这是最主流的形式,矩形边与图像坐标轴平行。
(x_min, y_min, x_max, y_max):左上角和右下角的像素坐标。这是Pascal VOC数据集的常用格式。(x_center, y_center, width, height):中心点坐标和宽高。这是COCO和YOLO等数据集的常用格式,两者可以互相转换。
旋转边界框:用于文字、遥感图像等任意朝向的物体。
(x_center, y_center, width, height, angle):在中心点坐标和宽高的基础上,增加一个旋转角度。常见于场景文字检测。
2. 核心概念:交并比
这是衡量两个边界框重叠程度的最重要指标,用于评估预测准确性。
定义:两个框的交集面积与并集面积的比值,即
IoU = Area of Overlap / Area of Union。取值范围:[0, 1]。0表示完全不相交,1表示完全重合。
应用:
判定标准:在评价模型时,通常设定一个IoU阈值(如0.5),当预测框与真实框的IoU大于该阈值时,认为检测成功。
去重神器(NMS):同一个物体可能被多次检测出多个相近的框。非极大值抑制算法会保留得分最高、置信度最高的框,并移除那些与其IoU过高的冗余框。
3. 锚框与无锚框
这是现代检测器生成边界框的两种主流思路。
基于锚框的方法:在图像的每个位置预设一系列不同尺度和长宽比的基准框(锚点),模型预测的是相对于这些锚框的偏移量。Faster R-CNN、SSD为代表。
无锚框方法:直接预测边界框的关键点或中心点,避免复杂的锚框设计。代表有CornerNet、CenterNet及YOLO的后期版本。两种方法的核心目标都是为了精准、高效地输出正确的边界框坐标。
下面的流程图可以帮你理清这些任务和概念之间的关系:
从图像分类到实例分割,计算机视觉任务对图像的理解,经历了从“是什么”到“在哪里”再到“具体是哪些像素”的逐层深化。而标注框作为定位的基石,以简洁的几何形式承载了“在哪里”这一关键信息,是串联起不同任务的重要桥梁。
