使用 Faster R-CNN 训练目标检测模型
什么是目标检测?
大多数人最初学习计算机视觉都是通过图像分类。简单来说,就是给模型输入一张图像,模型利用之前见过的数据来预测图像的内容。
例如,你的模型可能会看到下图,并判断这是一张狗的图片。
这很有用,但真实的图像通常比这复杂得多。如果像这样的照片里有多只狗,会发生什么呢?
或者一张有多只狗和一把椅子的照片?
从这些图像中我们可以看出,仅仅一个明确的标签是不够的。为了让这个计算机视觉模型能够实用地应用于许多实际任务,它还需要做更多的事情。它需要告诉我们每个物体是什么,以及每个物体位于哪里。
从宏观层面来看,目标检测结合了两项任务。
分类:这是什么 物体?
定位:对象在哪里?
这个位置通常用边界框表示,边界框就是围绕物体的一个矩形。
