赞
踩
#pic_center
R 1 R_1 R1
R 2 R^2 R2
目标检测算法中的一大类是使用锚框进行操作。虽然现在也有一些不需要锚框的算法,但主流趋势目前仍然倾向于使用锚框。那么,锚框究竟是什么呢?
对于计算机视觉算法而言,它首先提出多个“锚框”,这其实也是一种框,通常称之为框(box)。因此,一般来说,边缘框被翻译为“bounding box”或者称为“边缘框”。这个术语通常用于描述物体在图像中的真实位置,即标注中的位置。
“锚框”其实就是算法对边框位置的一种猜测。由于一开始并不清楚物体的确切位置,直接预测四个数字是相对困难的。因此,算法采用了一种先提出多个框的策略。如果直接去预测边缘框的四个数字,实际上是比较复杂的,因为我们并不知道框在图像中的确切位置。
他通常的做法是先提出多个框在图像中的不同位置,比如说,在一张图片中,他会提出多个框。等会我们会看到这张图片是如何被处理的。他所说的提出的框在这里指的是在图像上生成了5个框。这是通过算法生成的,它给出了这5个框的位置。因此,我们需要观察这5个框中是否包含我们感兴趣的物体。
如果发现其中有我们感兴趣的物体,例如其中的一个框,可能你会认为没有,因为他可能只是在某个局部区域观察到了一块区域。或者你也可能认为没有,这取决于他的观察。然后,对于其中一个蓝色的框,你会发现它的位置基本上与真实的标注位置很接近。在这种情况下,可以说这个蓝色的框提出得非常好。
如果一个锚框内包含我们关注的物体,首先需要进行分类,确定它是什么,或者属于哪一类物体。如果确认存在感兴趣的物体,接下来的步骤就是基于这个锚框进行预测,以了解真实边界框的移动方式。这意味着不再直接预测边缘框的四个坐标,而是建立在一系列步骤之上。
具体而言,首先提出多个锚框,每个锚框都是一种猜测。然后,当这些锚框中的某一个与真实标注的位置相近时,会进一步调整,将这个锚框逐渐调整到真实边界框的位置。这个调整的过程并不是直接操作边缘框的四个坐标,而是通过逐步优化模块的位置来完成。
这里需要进行两次预测:首先,是对于图像中的每一个区域(锚框)是否含有某一类物体的预测;其次,是对于这个位置的预测,与目标检测中需要预测物体的类别和位置相对应。这里我们涉及到两个方面的预测。
在这个过程中,有一类算法被称为基于锚框的算法,通过提出一系列的边界框进行预测。另外一类算法则直接预测,无需生成这些边界框。虽然有两种不同的方法,但目前来看,基于锚框的方法相对更为主流。
要比较两个框之间的相似度;就说要两个框;说的要说这个锚框跟真实框之间的相似度有多少,我们通常使用一种称为"交并比"(IoU)的计算标准。IoU是指交集区域与并集区域之比。具体来说,IoU的取值范围在0到1之间,其中0表示两个框没有交集,1表示两个框完全重叠,而越接近1,表示相似度越高。
IoU的计算方法相对简单,给定两个边界框a和b,首先计算它们的交集区域,即两个框重叠的部分。然后,将交集区域的面积作为分子,将两个框的并集区域作为分母。
所以,我们可以观察到,IoU(交并比)基本上肯定是大于等于零小于等于一的数字。如果两个框之间没有重叠,那么交集就是零,IoU就是零。如果完全重叠,那么交集和并集等于它们各自的面积,IoU就是一。
IoU可以被看作是一种常用的用于衡量两个几何形状相似度的指数,有时被称为Jaccard指数。它在计算机视觉领域被广泛使用。具体来说,给定两个集合,通过计算它们的交集和并集的大小,绝对地表示了它们的相似度。通过将IoU看作是Jaccard指数的等价形式,我们可以将两个边界框之间的相似度量化,特别是在处理像素级别的框时。
综上所述,IoU是一个常用的、有效的相似度指标,特别适用于计算机视觉任务中目标检测等领域。
这里是语义分割的算法了
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。