寸_铁

这个屌丝很懒，什么也没留下！

热门标签

【跟踪算法】MOSSE论文翻译_峰值旁瓣比psr

作者：寸_铁 | 2024-08-05 06:39:51

踩

峰值旁瓣比psr

MOSSE跟踪算法来自2010年David S. Bolme等人在CVPR上发表的论文《Visual Object Tracking using Adaptive Correlation Filters》。

论文首次将相关滤波运用到跟踪算法中，算法速度可达到669FPS.

论文摘要：虽然不常用，但相关滤波器可以通过旋转，遮挡和其他干扰来跟踪复杂物体，其速度是当前最先进技术的20倍以上。最旧和最简单的相关过滤器使用单一模板，并且在应用于跟踪时通常会失败。诸如ASEF和UMACE等更现代的方法表现更好，但他们的培训需求不太适合跟踪。视觉跟踪需要从单帧来训练鲁棒的滤波器，并在目标对象的外观发生变化时动态调整。

本文提出了一种新型的相关滤波器，即最小平方误差输出和（MOSSE）滤波器，它在使用单帧初始化时产生稳定的相关滤波器。基于MOSSE滤波器的跟踪器对于光照，尺度，姿势和非刚性变形的变化具有鲁棒性，同时以每秒669帧的速度运行。基于峰值旁瓣比PSR（PSR定义为，其中gmax是峰值，μsl和σsl是旁瓣的平均值和标准偏差）检测遮挡，这使得跟踪器能够暂停并在对象重新出现时从其停止的位置恢复。

一、介绍

视觉跟踪在视频处理中有许多实际应用。当目标位于视频的一帧中时，在后续帧中跟踪该对象通常很有用。成功跟踪目标的每个帧能够提供有关目标的标识和活动的更多信息。由于跟踪比检测更容易，因此跟踪算法在每个帧上可以比目标检测器使用更少的计算资源。

视觉跟踪近年来受到了很多关注。已经提出了许多强大的跟踪策略，其通过复杂的运算来确定目标外观的变化和跟踪目标。最近的例子包括：增量视觉跟踪（IVT）[17]，基于稳健碎片的跟踪（FragTrack）[1]，基于图形的判别学习（GBDL）[19]和多实例学习（MILTrack）[2]。虽然有效，但这些技术并不简单; 它们通常包括复杂的外观模型和/或优化算法，因此很难跟上许多现代相机产生的每秒25到30帧（见表1）。

在本文中，我们研究了一种更简单的跟踪策略。目标外观由自适应相关滤波器建模，并且通过卷积（f * g）进行跟踪。用于创建过滤器的朴素方法（例如，从图像中裁剪模板）会为目标生成强峰，但也会错误地响应背景。因此，它们对目标外观的变化不是特别鲁棒，并且在挑战性跟踪问题上失败。合成精确滤波器（ASEF）的平均值，无约束最小平均相关能量（UMACE）和平方误差的最小输出和（MOSSE）（本文介绍）产生的滤波器对于外观变化更加鲁棒并且更好地区分目标和背景。如下图所示，结果是一个更强的峰值被转换为更少的漂移和更少的下降轨道。传统上，ASEF和UMACE滤波器已经离线培训，用于物体检测或目标识别。在这项研究中，我们修改了这些技术，以便在线进行训练，并采用自适应进行视觉跟踪。结果使跟踪成为最先进的性能，保留了基础相关性方法的大部分速度和简单性。

该图显示了鱼测试序列的第25帧的输入，滤波器和相关输出。三个相关滤波器产生的峰值比Naive滤波器产生的峰值更紧凑。

尽管该方法简单，但基于改进的ASEF，UMACE或MOSSE滤波器的跟踪在旋转，缩放，光照和部分遮挡的变化下表现良好（参见图1）。测量相关峰值强度的峰值旁瓣比（PSR）可用于检测遮挡或跟踪失败，停止在线更新，以及如果目标以类似外观重新出现则重新获取跟踪。更一般地说，这些高级相关滤波器实现的性能与前面提到的更复杂的跟踪器一致; 但是，基于滤波器的方法速度提高了20多倍，每秒可处理669帧（见表1）。

表1：该表比较了MOSSE跟踪器与其他跟踪系统的帧速率。

本文的其余部分安排如下。第二节回顾了相关的相关滤波技术。第三节介绍了MOSSE滤波器以及如何使用它来创建基于鲁棒滤波器的跟踪器。第四节介绍了来自[17]的七个视频序列的实验结果。最后，第五节将重新审视本文的主要发现。

二、研究背景

在20世纪80年代和90年代，相关滤波器的许多变体，包括合成判别函数（SDF）[7,6]，最小方差合成判别函数（MVSDF）[9]，最小平均相关能量（MACE）[11]，最优权衡滤波器（OTF）[16]和最小平方误差综合判别函数（MSESDF）[10]。这些滤波器在具有不同外观和强制硬约束的目标对象的示例上进行训练，使得滤波器总是产生相同高度的峰值。最相关的是MACE，它产生尖峰和高PSR。在[12]中，发现基于SDF的滤波器（如MACE）的硬约束导致了失真容限问题。解决方案是消除硬约束，而用滤波器产生高平均相关响应来代替。这种最大平均相关高度（MACH）的新型“无约束”相关滤波器被称为UMACE，是MACE的变体。

一种称为ASEF的新型相关过滤器[3]引入了一种调整特定任务过滤器的方法。在早期方法仅指定单个峰值的情况下，ASEF指定每个训练图像的整个相关输出。 ASEF在眼睛定位[3]和行人检测[4]方面表现良好。不幸的是，在这两项研究中，ASEF都需要大量的训练图像，这使得视觉跟踪速度太慢。本文通过引入适用于视觉跟踪的ASEF的正则化变体来降低此数据要求。

三、基于相关滤波器的跟踪

基于滤波器的跟踪器使用在示例图像上训练的滤波器来建立目标的外观。最初基于以第一帧中的目标为中心的小跟踪窗口来选择目标。从这一点开始，跟踪和滤波训练一起工作。通过在下一帧中的搜索窗口上的相关滤波器来跟踪目标; 对应于相关响应中的最大值的位置表示目标的新位置。然后基于该新位置执行在线更新。

为了建立快速跟踪器，在傅立叶域快速傅立叶变换（FFT）[15]中计算相关性。首先，计算输入图像的2D傅立叶变换：F = F（f），并计算滤波器：H = F（h）。卷积定理指出相关性在傅里叶域中成为元素乘法。使用⊙符号明确表示逐元素乘法，*表示复数共轭，相关性采用以下形式：

G = F ⊙ H* （1）∗

使用逆FFT将相关输出变换回空间域。该过程中的瓶颈是计算正向和反向FFT，使得整个过程具有O（P log P）的复杂度，其中P是跟踪窗口中的像素数。

在本章中，我们将讨论基于滤波器的跟踪器的组成。 3.1节讨论了在跟踪窗口上执行的预处理。 3.2节介绍了MOSSE滤波器，它是从少量图像构建稳定相关滤波器的改进方法。 3.3节说明了如何使用正则化来生成更稳定的UMACE和ASEF滤波器。 3.4节讨论了用于在线更新过滤器的简单策略。

3.1 预处理

FFT卷积算法的一个问题是图像和滤波器被映射到环面的拓扑结构。换句话说，它将图像的左边缘连接到右边缘，并将顶部连接到底部。在卷积期间，图像旋转通过环形空间而不是像在空间域中那样进行平移。人为地连接图像的边界会影响相关输出的正确性。遵循[3]中概述的预处理步骤可以减少这种影响。首先，使用对数函数变换像素值，这有助于低对比度照明情况。将像素值归一化为具有0.0的平均值和1.0的范数。最后，图像乘以余弦窗口，该窗口逐渐将边缘附近的像素值减小到零。这也有利于它将更多的重点放在目标的中心附近。

3.2 MOSSE滤波器

MOSSE是一种用于从较少的训练图像产生类似ASEF的滤波器的算法。首先，它需要一组训练图像 $f_{i_{}}$ 和训练输出 $g_{i}$ 。通常， $g_{i}$ 可以采用任何形式。在这种情况下，从真实标记生成 $g_{i}$ ，使得它具有以训练图像 $f_{i_{}}$ 中的目标为中心的紧凑（σ= 2.0）2D高斯形状的峰值。在傅里叶域中进行训练，以利用输入和输出之间的简单元素关系。与前一节一样，我们将大写变量 $F_{i}$ ， $G_{i}$ 和滤波器H定义为它们的小写对应量的傅里叶变换。

（2）除法是按元素进行的。

为了找到将训练输入映射到所需训练输出的滤波器，MOSSE找到一个滤波器H，它最小化卷积的实际输出和卷积的期望输出之间的平方误差之和。这种最小化问题采取以下形式：

在输出上最小化平方误差和（SSE）的想法并不新鲜。事实上，公式3中的优化问题几乎与[10]和[12]中提出的优化问题相同。不同之处在于，在这些工作中，假设目标始终以 $f_{i_{}}$ 为中心并且输出（ $g_{i}$ ）对于整个训练集是固定的，而定制每个 $g_{i}$ 是ASEF和MOSSE的基本思想。在跟踪问题中，目标并不总是居中，并且 $g_{i}$ 中的峰值移动以跟随 $f_{i_{}}$ 中的目标。在更一般的情况下， $g_{i}$ 可以具有任何形状。例如，在[4]中， $f_{i_{}}$ 包含多个目标， $g_{i}$ 具有多个相应的峰值。

解决这个优化问题并不是特别困难，但需要注意，因为被优化的函数是复变量的实值函数。首先，H的每个元素（由ω和ν索引）可以独立求解，因为傅立叶域中的所有操作都是按元素执行的。这涉及根据 $H_{wv}$ 和 $H_{wv}^{*}$ 重写函数。然后，部分W.R.T. $H_{wv}^{*}$ 设置为等于零，同时将 $H_{wv}$ 视为一个独立变量[13]。

通过求解H*，找到MOSSE过滤器的闭合表达式：

完整的推导在附录A中。等式5中的术语具有有趣的解释。分子是输入和所需输出之间的相关性，分母是输入的能谱。

从公式5中，我们可以很容易地证明UMACE是MOSSE的一个特例。 UMACE定义为H * = $D^{-1}$ m *，其中m是包含平均中心裁剪训练图像的FFT的矢量，D是包含训练图像的平均能谱的对角矩阵[18]。因为D是对角矩阵，所以乘以其逆基本上执行逐元素划分。使用当前表示法重写时，UMACE采用以下形式：

但是，UMACE要求目标以 $f_{i_{}}$ 为中心。可以使用相关来执行接收。如果我们将 $g_{i}$ 定义为Kronecker delta（目标中心的峰值为1，其他位置为零），则这将基本上重新定位目标并计算UMACE滤波器。这与传统实现之间的区别在于，我们在这里进行裁剪，然后转换，传统方法先转换然后裁剪。

为了表明MOSSE产生比ASEF更好的滤波器，进行了一项实验，该实验改变了用于训练滤波器的图像数量。通过将随机小仿射扰动应用于视频的第一帧的跟踪窗口来初始化滤波器。第二帧上的PSR用作过滤器质量的度量。图3显示MOSSE在少量图像窗口上训练时产生更好的滤波器。原因将在下一节中讨论。

3.3 ASEF的正则化

3.4 滤波器初始化和在线更新

对第一个目标窗口 $f_{i_{}}$ 进行八个仿射变换得到一组训练图像，而 $g_{i}$ 则以目标中心生成高斯矩阵。

等式5描述了在初始化期间如何构造滤波器。使用随机仿射变换构造训练集，以在初始帧中生成跟踪窗口的八个小扰动（ $f_{i_{}}$ ）。还生成训练输出（ $g_{i}$ ），其峰值对应于目标中心。

在跟踪期间，目标通常可以通过改变其旋转，尺度，姿势，通过在不同的光照条件下移动，或甚至通过经历非刚性变形来改变外观。因此，滤波器需要快速适应以跟踪对象。运行平均值用于此目的。例如，从第 i 帧学习的ASEF过滤器计算如下：

和MOSSE过滤器：

其中η是学习率。这更加重视最近的帧，并使先前帧的效果随时间呈指数衰减。在实践中，我们发现η= 0.125允许滤波器快速适应外观变化，同时仍保持鲁棒。

3.5 故障检测和PSR

如前所述，峰值强度的简单测量称为峰值旁瓣比（PSR）。为了计算PSR，相关输出g被分成作为最大值的峰值和旁瓣（其是除了峰值周围的11×11窗口之外的其余像素）。然后将PSR定义为，其中gmax是峰值，μsl和σsl是旁瓣的平均值和标准偏差。

根据我们的经验，在正常跟踪条件下，UMACE，ASEF和MOSSE的PSR通常介于20.0和60.0之间，这表明峰值非常强。我们发现当PSR下降到7.0左右时，表明目标被遮挡或跟踪失败。对于Naive实现，PSR的范围在3.0到10.0之间，对于预测跟踪质量没有用。

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/寸_铁/article/detail/931211