Hierarchical Convolutional Features for Visual Tracking(CF2)论文翻译_cf2目标跟踪

作者：笔触狂放9 | 2024-03-30 13:38:54

踩

cf2目标跟踪

摘要

因为变形、快速运动、背景杂乱、遮挡等会引起目标物体的外观模型发生重大变化，因而视觉跟踪便成了一项具有挑战性的工作。在本文中，我们利用已经在目标识别数据库中训练好的深度卷积网络中提取出来的深度特征，来提高我们跟踪的精度和鲁棒性。在卷积神经网络中，最后一个卷积层的输出对目标的语义信息进行编码，并且这种表示对于重大的外观变化具有鲁棒性；然而，这样的表示因为空间分辨率太低而无法对目标进行准确定位。相反，卷积网络中比较靠前的卷积层因为含有更为丰富的空间信息而能够对目标进行准确定位，但是含有的语义信息太少因而不能应对较大的目标外观变化。我们把卷积层的层次结构看作是一个图像金字塔表示的非线性对等物，并且利用这些多层次的抽象化特征进行跟踪。特别是，我们在每一个我们用到的卷积层上，自适应地学习一个相关滤波器并对目标的外观进行编码。我们逐层推断最大相关响应来对目标进行定位。在大规模的基准数据集上，我们做了大量的实验，结果显示我们提出的算法比现有先进的算法更加优秀

一、引言

视觉目标跟踪是计算机视觉众多应用中的一个基本问题。视觉跟踪的一个经典场景就是跟踪一个在初始帧被边界框圈定的未知目标。尽管这些年视觉跟踪已经取得较大的发展，但是由于遮挡、变形、快速运动、光照变化、背景杂乱等原因容易引起较大的外观变化，所以，视觉跟踪仍然是一个挑战性问题。最近，基于卷积神经网络（CNNS）的特征在广泛的视觉识别任务中取得了先进的实验结果。因而，如何最好地利用CNNS丰富的卷积层次特征实现更为鲁棒的跟踪，是一件令人感兴趣的事情。

现有基于深度学习的跟踪器通常会在估计目标位置附近选取训练的正负样本，以便于递增式的学习一个基于CNNS特征的分类器。这样的方法会产生两个问题。第一个问题，沿用最近的目标识别算法，将卷积网络作为一种在线分类器，只是用了最后一个卷积层的输出来表示目标，对于高层次视觉识别问题，这样是非常有效的，因为最后一个卷积层特征跟分类层次语义信息最为密切，最不受干扰变量（例如，类内变化和精确位置）的影响；然而，视觉跟踪的目标是准确定位目标而非推断其语义分类，仅仅使用最后一个卷积层特征并不是目标的最优表示。第二个问题是关于提取训练样本，训练一个鲁棒的分类器需要相当数量的正负样本，这在视觉跟踪中是不可行的；另外，由于采样是在目标周围进行，正负样本具有很高的相关性，我们在确定决策边界时存在模糊性。

在这项工作中，我们通过以下方法处理这两个问题：（i）使用CNNS的分层特征而不仅是最后一个层的特征来表征目标（ii）不需要采样，在每一个CNN层上学习自适应相关滤波器。我们的方法基于这样的观察：尽管最后一个卷积层能更为有效地捕捉语义信息，但是却不能高效捕捉类似于目标位置这样更为精细的空间信息；前边的卷积层正好相反，能准确定位却不能捕捉足够的语义信息如图1.观察表明，我们可以这样推理CNN的多层特征对于视觉跟踪来说非常有用，因为语义信息可以应对重大的外观变化，空间细节能够准确定位目标。我们使用了CNNS最新进展的分层特征和经典计算机视觉问题中的多层次推理方法。例如，从图像金字塔的粗水平计算光学流是有效的，但是要获得精确和详细的流场需要更细的层次。我们通常采用由粗到精的搜索策略来得到最好的结果。考虑到这个联系，我们使用每一个卷积层提取的特征学习一个自适应相关滤波器，融合多层相关相应推断目标位置。我们将所有特征的移位版本作为训练样本，将它们回归到一个很小空间带宽的高斯函数，从而减轻了训练一个二值分类器的采样模糊性。

本文有以下三大贡献：第一，我们提出在视觉跟踪中使用CNNs丰富的多层特征来表示目标，同时使用了语义信息和空间细节来处理重大外观变化和避免漂移；第二，在每一个CNN层上自适应学习相关滤波器，缓解采样模糊，使用由粗到精的多层相关滤波响应推断目标位置；第三，我们在拥有100个挑战性图像序列的大规模基准数据集上做了大量广泛的实验，结果显示我们提出的算法在精确度和鲁棒性上比现有先进跟踪方法表现更加优秀。

2、相关工作

该部分主要要论了跟我们跟踪工作相关的跟踪算法。

基于二值分类器的跟踪

视觉跟踪在局部窗口下可以看作是重检测问题，分类器是在线学习的。每一帧，我们都要收集一系列正负训练样本用于增量学习一个判别式分类器，区分目标和背景；然而，抽样歧义问题伴随着诸如抽样用于学习在线分类器等方法产生。样本分类的轻微不精确就会影响到分类器并逐步导致跟踪器漂移。我们做了很多的努力来缓解这些由于采样模糊造成的模型更新问题，这些算法的核心思想在于如何适当地更新一个判别式分类器以减少漂移。例子有多示例学习（MIL）、半监督学习、pn学习，不是只学习了一个分类器，张等人将多个分类器与不同学习速率结合起来。Hare等人表明使用分类器进行标签预测的目的，与跟踪（精确位置估计）并将跟踪作为一个联合结构输出预测问题的目的没有明确的耦合，因为缓解了采样模糊问题，这些方法在最近的基准测试集上都变现很好。我们用相关滤波器来解决样本模糊的问题，在这些滤波器中，训练样本被回归到高斯函数的软标签上，而不是用于区分分类器学习的二进制标签。

基于相关滤波器的跟踪

可视化表示对于目标跟踪非常重要。大量手工特征被用来表征目标外观，例如，子空间描述、颜色直方图。近些年，CNNs在目标识别问题上已经取得重大发展。 Wang 和 Yeung提出的深度学习跟踪器使用了一个多层自编码网络，这个网络是以一种无监督方式在800万微型图像数据集的一部分上进行预训练的。Wang等人建议在视频存储库中学习一个两层的神经网络，在这种情况下，对特征学习来说，时间上的缓慢约束是被强加的。在模型更新过程中，李等人在不同的目标对象实例上构建多个CNN分类器，以排除干扰样本。DeepTrack 从二值样本中学习了两层的CNN分类器，不需要预先训练的程序。Hong等人使用预训练的CNN来学习特定目标显著图。我们注意到前边提到的CNN跟踪器都依赖于正负训练样本，并且只利用了最以后一层卷积层特征。相反，我们的方法建立在自适应相关滤波器的基础上，通过软标签回归密集的，循环移位的样本，有效地减少了采样的不确定性。此外，我们利用多个卷积层的特征来编码目标外观。我们使用在大规模的ImageNet数据集上训练并且拥有分类层级标签的VGG提取CNN的特征。我们还注意到，DLT 和DeepTrack 是通过在线微调CNNs更新外观模型，而王和我们的算法则使用分类器学习来进行模型更新。

3、概述

我们的方法建立在这样的观察下：CNNs的最后一个卷积层对对目标进行语义抽象编码且输出对重大的外观变化比较鲁棒，而前边的卷积层保留了更加精细的空间信息，对于准确定位目标很有用。我们在图2中展示了一幅水平台阶边缘图像，并将其在卷积神经网络的第三、四、五层的特征进行可视化，第五层由于空间分辨率太低而不能准确定位剧烈变化的边界，但是第三层却能够准确定位。我们的目标是利用最好的语义信息和空间细节进行视觉跟踪。图3说明了我们算法的主要步骤：我们在每个卷积层上学习一个自适应相关滤波器，由粗到精地多层次搜索最大滤波响应来定位目标。

4、提出的算法

在本部分，我们先呈现了用到的CNN特征、学习线性相关滤波器的技术细节，由粗到精的搜索策略。后边介绍在线模型更新。

4.1卷积特征

我们使用来自于诸如AlexNet或者VGG等卷积神经网络的卷积特征，对目标外观进行编码。随着卷积神经网络的前向传播，不同类别对象之间的语义差别得到加强，用于精准定位的空间分辨率则不断降低。对于视觉跟踪来说，我们对于目标的精确位置感兴趣，因为全连接层含有空间额分辨率太少，因而我们忽略它。

由于网络中用到有池化操作，随着卷积层级的加深空间分辨率逐步降低。例如，在VGG网络中pool5层的空间尺寸是7x7，是输入图像尺寸224x224的1/32，我们通过使用双线性插值将图像缩放到一个固定的比较大的尺寸上来缓解这个问题。h代表池化过后比较小的特征映射，x代表经过上采样以后的特征映射第i个位置的特征向量是公式一。内插权重alphaf(i,k)取决于位置i和k个相邻特征向量。这个插值是发生在空域的，可以看做是位置的差值。我们通过将上采样后的特征投影到它们在MotorRolling视频序列上对应的前三个主成分上边，以此来对第三、四、五层的上采样输出进行可视化。第五层的特征在识别目标时是有效的即使发生了巨大的背景变化。我们知道，这一观点在14中也被利用，使用CNN的多层连接特征进行分割和更精细的定位。然而，这样的特征表示方法忽略了CNN体系结构中由粗到细的层次结构，就像在我们的实验中展示的那样，用于视觉跟踪表现并不好。

4.2相关滤波

一个经典的相关跟踪器就是学习一个判别式分类器，通过搜索相关滤波响应的最大值来估计目标位置。在我们的工作中，每个卷积层的输出都是被用作多个通道特征。用x表示第l层特征向量，尺寸为MxNxD，M，N和D分别代表宽高通道数。我们考虑了x在M维和N维上的所有循环移位作为训练样本，每一个移位样本x(m,n),都有一个高斯函数标签，然后我们可以通过公式2学习到一个跟x同样尺寸的滤波器，内积是由希尔伯特空间一个线性核引起的。因为高斯标签是软标签，我们不需要硬阈值样本。注意到公式2 中的最小化问题类似于[2]论文里边的训练向量相关滤波器，可以用FFT在每一个独立特征通道解决。第l个卷积层的d通道的滤波器频域表示可以写作公式3，Y是高斯标签的频域表示。给定下一帧的图像块z，尺寸MxNxD，第l卷积层的相关响应（类似于高斯标签的那个参数）就是公式4。通过搜索l层相关响应的最大值就可以估计目标位置。

4.3由粗到精位置估计

给定一组相关响应映射，我们从分层推断每一层的目标位置，例如，最后一个卷积层的最大响应位置作为一个正则化参数帮助搜索前一层的最大响应位置。公式5的约束条件表明，在第（l-1）层，只有（m尖尖，n尖尖）的rXr邻域才会用来搜索最大相关响应。后一层的响应值被正则化参数加权并且反向传播到前一层的相关响应映射。最终，我们通过在最精细层最大化公式5来估计目标位置。

4.4模型更新

在l-th层上的一个最优过滤器可以通过最小化所有跟踪结果的输出错误来更新，但是这涉及到在每一个位置（m,n）处解一个DxD的线性方程组，这个计算量很大，因为CNN特征的通道通常都特别多。为了得到一个鲁棒的近似，我们用移动平均分别更新滤波器的分子分母。

5.实现细节

在算法1 中我们展示了提出的跟踪算法的主要步骤，实现细节如下。我们用在ImageNet上训练好的VGG19提取特征。我们首先移除全连接层，使用conv3-4, conv4-4, conv5-4,的输出作为我们的特征注意我们并不用池化曾的输出作为特征，因为我们想要在每一个卷积层上保留更多的空间分辨率。给定视频帧的搜索窗口大小为MxN，我们把每一层的特征缩放到固定尺寸M/4xN/4.

每一层上用于训练滤波器的参数是一样的，我们把正则化参数设置为。。。用核带宽为0.1的高斯函数产生标签。学习速率设置为0.01.为了避免边界不连续，我们用余弦窗对每一层提取的特征通道进行加权。三个响应权系数gamma分别为 1（conv4-4），0.5（conv3-4），0.02（conv5-4），（程序中其实为1（conv5-4），0.5（conv4-4），0.25（conv3-4））.我们观察发现结果对用于限制邻域搜索的r并不敏感，这相当于简单地对来自多个层的响应加权求和，以推断目标位置。

6.实验验证

我们用一个包含100个视频的大型基准数据集对提出的算法进行评估，并将其与最先进的方法进行比较。为了完整起见，我们还在基准数据集31中报告了50个视频(32个子集)的结果。我们用距离精确率、重叠率和中心位置误差对跟踪器进行定量评估。我们在32中遵循这个协议，并使用相同的参数值来处理所有的序列和所有的敏感性分析，在补充材料中可以找到更多的结果。

定量评估

我们通过将提出算法跟12个最先进的跟踪器进行比较来对算法进行评估。这些跟踪器可以分为三类：（i）深度学习跟踪器（ii）相关滤波跟踪器，包括CSK,STC,KCF（iii）使用单一或多个在线分类器的代表性跟踪算法。

图5显示了使用距离精度率和重叠成功率的单次评估(OPE)、时间鲁棒性评估(TRE)和空间鲁棒性评估(SRE)的结果。在补充材料中可以看到更多的关于OPE,SRE,TRE在前50各序列上的比较。总之，我们提出的算法在这三个指标上，相较于其他先进方法更为优秀。我们给出了距离精度20个像素点、重叠成功率在0.5点、中心位置误差和跟踪速度的定量比较，如表1.我们同时报告了前50个视频序列和100个视频序列的结果。表1显示，我们的算法在距离精度(DP)率、重叠成功(OS)率和中心位置误差(单元)中表现良好。请注意，在整个100个序列中，基准II比基准i的更具有挑战性，所有被比较的跟踪器都比基准i中表现的差。在最先进的追踪器中，MEEM方法34获得了第二好的结果。提出的方法的中心位置误差在100个视频序列中得到了22.8个像素点，相比之下，MEEM跟踪器的第二个最好结果是27.7像素。我们的跟踪器每秒运行大约10帧。我们的跟踪器的主要计算量是向前传播过程中用以提取特征的时间(每个帧的计算时间大约为45%)。

属性评估

我们在不同的视频属性下进一步分析跟踪器的性能(例如:背景混乱，遮挡，快速运动)等在基准32中注释的。图6显示了8个主要的视频属性。从视频6中，我们有了以下观察结果：首先，我们的方法在处理背景信息时是有效的，这可以通过从cnns的层次结构的语义和空间细节来解释。与此相反，DLT方法使用未受监督的模型进行训练，并且只使用经过训练的神经网络的最后一层的输出作为特征，这些实验数据表明在分层监督学习模式下的CNN的特征(例如:vgg-net)能更有效地将目标与背景区分开来；其次，我们的方法在尺度变大的情况下表现良好，因为前训练模型的最后一层保留了对尺度变化不敏感的语义信息；第三，在遮挡和物体变形的情况下，我们的方法不能很好地发挥作用。这可以归因于我们模型中使用的整体特性表示，我们将在未来的工作中考虑重新检测模块或基于部件的模型。

特征分析

为了分析该算法的有效性，我们比较了算法在包含100个视频序列的基准数据集中使用不同卷积层作为特征的表现。我们首先测试每一层(c5、c4和c3)，然后在第5和第4层执行粗到细的搜索(c5-c4)。我们还将这三个层连接在一起(c543)，这是在14中使用的超列。但是，这样的连接破坏了CNN层的层次结构，因此不能很好地进行视觉跟踪。此外，我们还使用相同的方案测试从AlexNet 20中提取的特征。图7显示了使用OPE的不同特征的前10个实现方法，其中与DP有关的值是基于20个像素的阈值，而OS图例中的值是基于曲线下的区域(AUC)。请注意，从vggnet中提取的特性比AlexNet更有效，因为在更深层的体系结构中，增强的语义对显著的外观变化更不敏感。此外，使用多个CNN层特征对位置线索进行层次化推理，提高了跟踪性能。

定性评估

图8显示了一些比较先进的跟踪算法在12个具有挑战性的视频序列上的跟踪结果。MEEM跟踪器在变形、旋转、遮挡(Basketball,Bolt, Jogging-1, andSkiing)的序列中表现良好，但是当背景混乱和快速运动出现时跟踪失败(Board,Soccer, Diving, MotorRolling, and Human9)，因为量化的颜色通道的特征在处理杂乱的背景时效果不那么好。我们还注意到，由于在Freeman4序列中仅使用亮度强度特性，MEEM快速地漂移。KCF跟踪器基于HOG特征学习了一种高斯核的内核化相关过滤器。它在具有局部变形和快速运动((Basketball, Bolt)的序列中表现良好，但当目标物体受到严重遮挡时(Jogging-1)和旋转(MotorRolling and Skiing)时就会漂移。DLT方法没有像我们那样充分利用语义和细粒度信息，因此无法跟踪所选的具有挑战性的序列中的目标。 Struck方法在变形、背景杂乱和旋转(篮球、博尔特、摩托和滑雪)和重遮挡(慢跑-1)的序列中表现不佳。虽然结构化输出的使用有效地减轻了采样的歧义问题，但是用手工制作的特征表示对大的外观变化并不是有效的。

提出的算法性能良好的原因可以从两个主要方面来解释。首先，使用从大型数据集中学习到的层次化卷积特性的可视化表示比传统手工制作的特性更有效。使用多层次的CNN特征，同时包含有分类层级语义信息和精细空间信息，这些可以使算法应对形变、旋转和背景杂乱引起的外观变化(Board, Soccer, Diving, Ski- ing, and Human9).。值得一提的是，在最具挑战性的滚动序列中，12种最先进算法中没有一种能够很好地跟踪目标，而我们的方法能达到94.5%的距离精度。其次，在卷积特性上训练的线性相关滤波器得到了适当的更新，以应对外观的变化。

失败案例

我们在图9中展示了一些失败案例。对于女孩和Lemming的序列，当长期的遮挡发生时，提出跟踪器无法跟踪目标，因为缺乏重新检测模块，这一点刚好跟TLD和MEEM方法相反。使用(6)的相关滤波保守更新的另一种实现方法可以成功跟踪目标。对于Singer2序列，使用语义特征来区分黑暗的前景和明亮的背景是不有效的。在这种情况下，仅使用cnn的第一个层的特征就可以很好地跟踪目标，因为细粒度的空间细节在这个序列中更重。

7.总结

本文提出了一种有效的视觉跟踪算法，它利用了从大型数据集中学习的cnn的丰富分层特征。最后的卷积层保留了目标对象的语义，这对于显著的外观变化来说是很鲁棒的。早期的卷积层编码了更细粒度的空间细节，这对于精确的位置非常有用。具有语义和细粒度细节的两个特性同时被用于可视化跟踪。我们在每一个卷积层上训练一个线性相关的过滤器，并通过一个由粗到精的搜索方法来推断目标位置。大量的实验结果表明，该算法在精度和鲁棒性方面优于目前最先进的方法。

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/笔触狂放9/article/detail/340866