ORB是是ORiented Brief的简称。ORB的描述在下面文章中:
Ethan Rublee and Vincent Rabaud and Kurt Konolige and Gary Bradski, ORB: an efficient alternative to SIFT or SURF, ICCV 2011
没有加上链接是因为作者确实还没有放出论文,不过OpenCV2.3RC中已经有了实现,WillowGarage有一个talk也提到了这个算法,因此我不揣浅陋,在这里总结一下。
Brief是Binary Robust Independent Elementary Features的缩写。这个特征描述子是由EPFL的Calonder在ECCV2010上提出的。主要思路就是在特征点附近随机选取若干点对,将这些点对的灰度值的大小,组合成一个二进制串,并将这个二进制串作为该特征点的特征描述子。详细算法描述参考如下论文:
注意在BRIEF eccv2010的文章中,BRIEF描述子中的每一位是由随机选取的两个像素点做二进制比较得来的。文章同样提到,在此之前,需要选取合适的gaussian kernel对图像做平滑处理。(为什么要强调这一点,因为下述的ORB对此作了改进。)
BRIEF的优点在于速度,缺点也相当明显:
1:不具备旋转不变性。
2:对噪声敏感
3:不具备尺度不变性。
ORB就是试图解决上述缺点中的1和2.
如何解决旋转不变性:
在ORB的方案中,是采用了FAST作为特征点检测算子。FAST应用的很多了,是出名的快,以防有人不知道,请看这里:
在Sift的方案中,特征点的主方向是由梯度直方图的最大值和次大值所在的bin对应的方向决定的。略嫌耗时。
在ORB的方案中,特征点的主方向是通过矩(moment)计算而来,公式如下:
有了主方向之后,就可以依据该主方向提取BRIEF描述子。但是由此带来的问题是,由于主方向会发生变化,随机点对的相关性会比较大,从而降低描述子的判别性。解决方案也很直接,采取贪婪的,穷举的方法,暴力找到相关性较低的随机点对。
如何解决对噪声敏感的问题:
在前面提到过,在最早的eccv2010的文章中,BRIEF使用的是pixel跟pixel的大小来构造描述子的每一个bit。这样的后果就是对噪声敏感。因此,在ORB的方案中,做了这样的改进,不再使用pixel-pair,而是使用9×9的patch-pair,也就是说,对比patch的像素值之和。(可以通过积分图快速计算)。
关于尺度不变性:
ORB没有试图解决尺度不变性,(因为FAST本身就不具有尺度不变性。)但是这样只求速度的特征描述子,一般都是应用在实时的视频处理中的,这样的话就可以通过跟踪还有一些启发式的策略来解决尺度不变性的问题。
关于计算速度:
ORB是sift的100倍,是surf的10倍。
关于性能:
下面是一个性能对比,ORB还是很给力。点击看大图。
关注,希望继续跟踪更新啊
不完全统计了一下ICCV11和feature相关的文章
75 CARD: Compact And Real-time Descriptors
344 Robust Consistent Correspondence Between 3D Non-Rigid Shapes Based On “Dual Shape-DNA”
350 Local Intensity Order Pattern for Feature Description
929 Gradient-based learning of higher-order image features
951 Latent Low-Rank Representation for Subspace Segmentation and Feature Extraction
971 Speeded-up, relaxed spatial matching
1456 Evaluation of Image Features Using a Photorealistic Virtual World
1630 Robust Topological Features for Deformation Invariant Image Matching
1655 RISK: Binary Robust Invariant Scalable Keypoints
1673 ORB: an efficient alternative to SIFT or SURF
这个信息要关注,好像很强,要持续跟踪
持续关注~~~~
用过作者的brief,的确很强大,而且实现很简单
当初看了brief之后,发现和<>的思想蛮像的,也想把fast9与brief结合一下,这样才是快快联合啊,原来作者已完成了。不过我在高清的交通视频上实验,fast9不是理想,提取的位置并不是我想要的。
07年有个论文:Fast Keypoint Recognition in Ten Lines of Code,就是叫 Fua的这帮人,Fern嘛。再有就是剑桥Tom Drummond的Multiple Target Localisation at over 100 FPS,都是这个路子