当前位置：首页 > news >正文

深度学习篇---图像分类、目标检测和图像分割任务对比

news 2026/5/24 0:19:19

在计算机视觉领域，图像分类、目标检测和图像分割是三个核心的基础任务，它们层层递进，对图像的理解也越来越精细。而标注框则是连接这些任务，特别是目标检测和实例分割，最关键的数据表达形式。

下面我来为你详细介绍这三者的区别，以及标注框的相关知识，最后同样会为你梳理一张总结框图。

这三个任务的核心区别，在于它们对图像内容进行“理解”和“描述”的精细程度。

这是最基础的任务，回答“这张图里有什么？”这个全局性问题。

在分类的基础上更进一步，回答“图里有什么，它们分别在哪里？”。

这是像素级的理解任务，追求最精细的描绘，回答“每个像素分别属于什么？”。它又可细分为：

语义分割：
- 问题：“图里的所有像素分别属于哪个类别？”
- 输出：一张与输入图像同尺寸的“掩码图”，每个像素被赋予一个类别标签（如0-背景，1-猫，2-草地）。
- 核心：区分不同类别的像素，但不区分同一类别的不同个体。图中所有“猫”的像素标签都一样。
- 代表模型：FCN、U-Net、DeepLab系列。
实例分割：
- 问题：“图里有哪些物体的实例？每个实例的精确轮廓是什么？”
- 输出：结合了检测与分割。会检测出每个物体实例，并为其生成一个精确到像素的二值掩码（Mask），同时区分同类个体（猫A vs 猫B）。
- 核心：这是目标检测（定位个体）和语义分割（描绘轮廓）的结合。
- 代表模型：Mask R-CNN、YOLACT。
全景分割：
- 问题：对图中所有像素进行全面彻底的理解。
- 输出：每个像素都必须被分配一个语义类别和一个实例ID。背景（如天空、草地）只分配语义类别，而可数物体（如猫、车）则同时分配语义类别和实例ID。
- 核心：语义分割 + 实例分割的统一。
- 代表模型：Panoptic FPN、Mask2Former。

总的来说，从图像分类到全景分割，计算机对图像的解析是一个从全局到局部，再到全局像素理解的过程。

标注框是目标检测任务的“黄金标准”输出，也是模型训练时必须提供的数据形式。它用最简洁的几何图形——矩形，来近似表示物体的位置和大小。

一个边界框通常由以下要素组成：

这是衡量两个边界框重叠程度的最重要指标，用于评估预测准确性。

定义：两个框的交集面积与并集面积的比值，即IoU = Area of Overlap / Area of Union。
取值范围：[0, 1]。0表示完全不相交，1表示完全重合。
应用：
- 判定标准：在评价模型时，通常设定一个IoU阈值（如0.5），当预测框与真实框的IoU大于该阈值时，认为检测成功。
- 去重神器（NMS）：同一个物体可能被多次检测出多个相近的框。非极大值抑制算法会保留得分最高、置信度最高的框，并移除那些与其IoU过高的冗余框。

这是现代检测器生成边界框的两种主流思路。

基于锚框的方法：在图像的每个位置预设一系列不同尺度和长宽比的基准框（锚点），模型预测的是相对于这些锚框的偏移量。Faster R-CNN、SSD为代表。
无锚框方法：直接预测边界框的关键点或中心点，避免复杂的锚框设计。代表有CornerNet、CenterNet及YOLO的后期版本。两种方法的核心目标都是为了精准、高效地输出正确的边界框坐标。

下面的流程图可以帮你理清这些任务和概念之间的关系：

从图像分类到实例分割，计算机视觉任务对图像的理解，经历了从“是什么”到“在哪里”再到“具体是哪些像素”的逐层深化。而标注框作为定位的基石，以简洁的几何形式承载了“在哪里”这一关键信息，是串联起不同任务的重要桥梁。