赞
踩
目标检测是CV(Computer Vision,计算机视觉)中富有挑战的任务之一。该任务不仅要求算法能够识别出图像中具有哪些待检测目标物体,同时还需要算法明确地用Bounding Box(边界框)描绘出所有目标物体在图像中的位置。
在R-CNN之前,传统的目标检测算法主要基于人工构建的图像特征(如SFIT和HOG)。这类特征虽然通常具有很好的可解释性,但没有任何证据表明“可解释的特征就是好的”。尤其在诸如CV这样复杂的场景中,可解释的特征反而可能是阻碍算法性能的重要因素。
本文介绍的R-CNN虽然已经不具备实际应用价值,但它的原理和思路对后来的目标检测算法起到了非常重要的作用。简而言之,R-CNN使用CNN来提取图像特征,并基于算法生成的候选区域(即可能存在目标物体的位置)实现对目标的检测。
R-CNN实际可以看作由三部分组成:候选区域生成算法,特征提取的CNN和对候选区域进行分类的算法。
R-CNN采用 selective search[1]算法生成候选区域。selective search的作者强调了算法需要满足的三个要求:1)能够提取出不同尺度大小的候选区域。因为图像中的物体(即使同一物体)会呈现出各种不同大小的尺度,因此该要求是算法需要满足的最基本要求;2)多样化的提取策略。这是因为同类物体在“相似性”的概念上具体体现可能不同:有时候同类物体具有相似轮廓、有时候是相似的颜色。因此单一的策略很难解决所有问题。3)计算速度快。
selective search算法的伪代码如下所示(出自原论文):
算法的输入是一幅图像,输出是计算出的目标对象候选位置集合。算法的详细细节比较多,可以参考原文。这里主要厘清核心思路。selective search算法首先使用文献[2]中的方法生成初始候选区域集合R。接着对R中的任意两个相邻区域 r i \ r_i r
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。