赞
踩
申明,本文是笔者在阅读了几篇行人检测综述性文章之后,翻译、总结、归纳所得。方便自己了解行人检测的发展趋势,同时,也给打算从事行人检测研究的朋友们提供一些思路吧。
行人检测的历史:
早期以静态图像处理中的分割、边缘提取、运动检测等方法为主。例如:
(1)以Gavrila为代表的全局模板方法:基于轮廓的分层匹配算法,构造了将近2500个轮廓模板对行人进行匹配, 从而识别出行人。为了解决模板数量众多而引起的速度下降问题,采用了由粗到细的分层搜索策略以加快搜索速度。另外,匹配的时候通过计算模板与待检测窗口的距离变换来度量两者之间的相似性。
(2)以Broggi为代表的局部模板方法:利用不同大小的二值图像模板来对人头和肩部进行建模,通过将输入图像的边缘图像与该二值模板进行比较从而识别行人,该方法被用到意大利Parma大学开发的ARGO智能车中。
(3)以Lipton为代表的光流检测方法:计算运动区域内的残余光流;
(4)以Heisele为代表的运动检测方法:提取行人腿部运动特征;
(5)以Wohler为代表的神经网络方法:构建一个自适应时间延迟神经网络来判断是否是人体的运动图片序列;
以上方法,存在速度慢、检测率低、误报率高的特点。
行人检测的现状:
大体可以分为两类:
(1)基于背景建模的方法:分割出前景,提取其中的运动目标,然后进一步提取特征,分类判别;在存在下雨、下雪、刮风、树叶晃动、灯光忽明忽暗等场合,该方法的鲁棒性不高,抗干扰能力较差。且背景建模方法的模型过于复杂,对参数较为敏感。
(2)基于统计学习的方法:根据大量训练样本构建行人检测分类器。提取的特征一般有目标的灰度、边缘、纹理、形状、梯度直方图等信息,分类器包括神经网络、SVM,adaboost等。该方法存在以下难点:
(a)行人的姿态、服饰各不相同;
(b)提取的特征在特征空间中的分布不够紧凑;
(c)分类器的性能受训练样本的影响较大;
(d)离线训练时的负样本无法涵盖所有真实应用场景的情况;
尽管基于统计学习的行人检测方法存在着诸多的缺点,但依然有很多人将注意力集中于此。典型的代表是法国研究人员Dalal在2005的CVPR发表的HOG+SVM的行人检测算法(Histograms of Oriented Gradients for Human Detection, Navneet Dalel,Bill Triggs, CVPR2005)。HOG算子的介绍在笔者的另一篇博客中有详细介绍(http://blog.csdn.net/carson2005/article/details/7782726),而hog+svm的行人检测算法已经被OpenCV实现,笔者的一篇博客中有详细的流程介绍及参考代码:http://blog.csdn.net/carson2005/article/details/7841443
考虑到背景建模和统计学习这两种方法各有优缺点,有研究人员提出将这两种方法予以结合来进行快速准确的行人检测。其中的一个典型系统如下:
注:上图来自这篇文章:基于场景模型与统计学习的鲁棒行人检测算法;自动化学报;2010年4月;
该文中,作者利用GMM来进行背景建模,利用Haar-like特征对行人进行特征描述,以AdaBoost级联结构作为分类器。并提出一种改进的弱分类器选择算法,从而使得弱分类器选择和分类器重新训练得以在10分钟左右完成。
目前行人检测的几个典型方向
(备注:state of the art,不知该词汇该如何翻译,暂且写作“典型方向”,知道的朋友烦请告知);
Pepageorgios等人是第一个提出采用滑动窗口进行行人检测的,他们采用SVM和多尺度Haar小波过完备基结合的方式进行行人检测。而Viola和Jones则基于这种思路,用积分图来完达到快速特征计算的目的,并利用一种级联结构用户高效的检测,同时,利用AdaBoost算法来进行自动特征筛选。上述这些思路都构成了如今行人检测算子的基石。
受到SIFT算子的启发,Dalal和Triggs等人提出了梯度直方图(Histogram Of Gradient, HOG)特征用于行人的特征描述,并通过实验证明了HOG比基于灰度的特征更富有信息。而Shahua等人也提出了一种类似的方法来刻画行人。自此以后,基于HOG的变种方法开始急剧增加,而所有的这些变种,几乎都在一定程度上采用了HOG算子的一些思想。形状特征也是一个对行人检测有效的特征描述方法。Gavrila和Philomin等人利用Hausdorff距离变换和一种分层模板匹配方法来快速检测行人。Wu和Nevatia则利用大量的线段和曲线,构成一种称之为“edgelet”的特征来局部的表达形状特征。有研究人员还利用boosting方法来学习头部、躯干、腿部以及全身的检测算子。类似的,有研究人员提出一种称之为“shapelets”的特征,它是一种基于局部图像区域(patch)的梯度来刻画形状特征的。
运动则是行人检测中的另一个重要线索。然而,在摄像机运动的情况下,有效的利用运动特征则是一个具有挑战性的课题。在相机固定的情况下,Viola等人提出通过计算不同图像的haar-like特征,可以获得较好的性能提升。而对于摄像机不固定的情况,则需要将运动分类进行分解。Dalal等人利用光流场来对图像内部的运动进行统计建模,然后,在图像局部区域内进行一定的运动补偿。
就单个特征而言,目前还没有那个特征描述算子比HOG算子更加有效。当然,可以将其它特征跟hog特征结合起来,达到补充的作用。Wojek和Schiele研究发现,通过将Haar-like,shapelets,形状上下文,hog特征进行一定的组合,将会比任何其它单独特征描述算子更加有效。而Walk等人在此基础上考虑了颜色自相关和前面提到的运动特征。类似的,Wu和Nevatia将HOG,edgelet和协方差特征进行结合。Wang等人则提出将基于LBP的纹理特征和HOG算子相互结合,此外,还将SVM分类器进行改进,以便使其更加适用于遮挡的情况。当然,也有人提出将局部三值模式(LBP的一个变种),颜色信息,隐式分割等同HOG进行结合,当然,上述方法相比单纯的HOG而言,在性能上都有一定程度的提升。
Dollar等人在Viola和Jones的基础上进行扩展,提出在多个通道上进行haar-like特征提取,包括LUV颜色通道,灰度,梯度幅值等,该方法可谓一个多种特征的大杂烩。Tuzel等人利用特种局部特征的协方差矩阵作为一种特征描述方法。此外,还有研究人员将注意力集中在“如何有效的利用巨大的特征空间”。因此,特征缩小(feature mining)被研究人员提出来,采用包括最大下降法在内的各种各样的策略来训练boost分类器。
关于行人检测的综述性文章,笔者推荐一篇:Pedestrian Detection: An Evaluation of the state of the Art, PAMI,2012;需要的朋友可以在这里下载:http://download.csdn.net/detail/carson2005/4904088
转自:http://blog.csdn.net/carson2005/article/details/8316835
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。