赞
踩
我们提出了一种新的局部图像特征匹配方法。我们建议先在粗略级别建立像素级密集匹配,然后再在精细级别细化良好匹配,而不是按顺序进行图像特征检测、描述和匹配。与使用成本体积搜索对应关系的密集方法相比,我们在 Transformer 中使用自注意力层和交叉注意力层来获得以两个图像为条件的特征描述符。Transformer 提供的全局感受野使我们的方法能够在低纹理区域产生密集匹配,在这些区域,特征检测器通常难以产生可重复的兴趣点。在室内和室外数据集上的实验表明,LoFTR的性能远远优于最先进的方法。在已发布的方法中,LoFTR在视觉定位的两个公共基准中也排名第一。
源码地址:https://github.com/zju3dv/LoFTR
论文下载地址:https://arxiv.org/pdf/2104.00680.pdf
效果如下:
LoFTR
在图像对 A和 B中,现有的局部特征匹配方法使用特征检测器来提取兴趣点。我们建议通过无探测器设计来解决特征探测器的可重复性问题。图2给出了所提出的LoFTR方法的概述。
图2:所提方法概述,LoFTR 有四个组件:
我们在 ScanNet 数据集上训练 LoFTR 的室内模型,在 MegaDepth 上训练室外模型 。在 ScanNet 上,使用 Adam 训练模型,初始学习率为 1 × 10−3,批处理大小为 64。在 64 个 GTX 1080Ti GPU 上训练 24 小时后,它会收敛。本地功能CNN使用ResNet-18 [12]的修改版本作为主干。整个模型使用随机初始化的权重进行端到端训练。Nc 设置为 4,Nf 为 1。θc 被选为 0.2。窗口大小 w 等于 5。F ̃A tr 和 F ̃B tr 在实现中通过精细级 LoFTR 之前,先对 F ̃A 和 F ̃B 进行上采样并连接。在RTX 2080Ti上,具有dualsoftmax匹配的完整型号在640×480图像对上的运行速度为116 ms。在最佳传输设置下,我们使用了三个 sinkhorn 迭代,模型以 130 毫秒的速度运行。我们建议读者参考补充材料,了解有关训练和时间分析的更多详细信息。
在第一个实验中,我们在广泛采用的 HPatches 数据集 上评估了 LoFTR 以进行单调估计。HPatches 包含 52 个在显著照明变化下的序列和 56 个在视点上表现出较大变化的序列。
评估协议: 在每个测试序列中,一个参考图像与其余五个图像配对。所有图像的大小都调整为等于 480 的较短尺寸。对于每个图像对,我们提取一组在MegaDepth [21]上训练的LoFTR匹配项。我们使用 OpenCV 以 RANSAC 作为鲁棒估计器来计算单调估计。为了与产生不同匹配数量的方法进行公平的比较,我们计算了使用估计的 Hˆ 扭曲的图像与作为正确性标识符的真值 H 之间的角误差,如 [9] 所示。在 [37] 之后,我们报告了拐角误差的累积曲线下面积 (AUC),分别达到 3、5 和 10 像素的阈值。我们报告最多 1K 输出匹配的 LoFTR 结果。
基线方法:我们将LoFTR与三类方法进行了比较:1)基于检测器的局部特征,包括R2D2 、D2Net和DISK ,2)基于检测器的局部特征匹配器,即SuperPoint 特征之上的SuperGlue ,以及3)无检测器匹配器,包括Sparse-NCNet [33]和DRC-Net 。对于局部特征,我们提取最多 2K 的特征,我们提取相互最近邻作为最终匹配项。对于直接输出匹配的方法,我们限制最多 1K 匹配,与 LoFTR 相同。我们在原始实现中对所有基线使用默认超参数
表 1 显示,在所有误差阈值下,LoFTR 明显优于其他基线。具体而言,LoFTR 与其他方法之间的性能差距随着更严格的正确性阈值而增加。我们将最佳性能归因于无探测器设计提供的更多匹配候选和Transformer带来的全局感受野。此外,从粗到细模块还通过将匹配细化到亚像素级别来提高估计精度
数据。我们使用 ScanNet 和 MegaDepth 分别在室内和室外场景中来证明 LoFTR 在姿态估计方面的有效性。
ScanNet 包含 1613 个单目序列,带有地面实况姿势和深度图。按照 SuperGlue 的程序,我们对 230M 图像对进行采样进行训练,重叠分数在 0.4 到 0.8 之间。我们在 [37] 的 1500 个测试对上评估了我们的方法。所有图像和深度图的大小都调整为 640 × 480。该数据集包含具有宽基线和广泛无纹理区域的图像对。
MegaDepth 由 196 个不同户外场景的 1M 互联网图像组成。作者还提供了COLMAP[40]的稀疏重建和从多视图立体计算的深度图。我们遵循DISK [47],仅使用“圣心大教堂”和“圣彼得广场”的场景进行验证,我们从中抽取了1500对进行公平比较。调整图像大小,使其较长的尺寸等于 840(用于训练)和 1200(用于验证)。MegaDepth 的主要挑战是在极端的视点变化和重复模式下进行匹配
评估协议。在[37]之后,我们报告了阈值(5◦,10◦,20◦)处的姿态误差的AUC,其中姿态误差定义为旋转和平移中角度误差的最大值。为了恢复相机姿势,我们从与 RANSAC 的预测匹配中求解基本矩阵。由于缺少孔,我们没有比较 LoFTR 和其他基于探测器的方法之间的匹配精度为无检测器图像匹配方法定义的指标(例如,匹配分数或召回率 [13, 30])。我们认为DRCNet[19]是无探测器方法[34,33]中最先进的方法。
室内姿态估计结果。与所有竞争对手相比,LoFTR 在姿势精度方面取得了最佳性能(见表 2 和图 5)。将 LoFTR 与最佳传输或双 softmax 配对作为可微分匹配层可实现相当的性能。由于DRC-Net†的已发布模型是在MegaDepth上训练的,因此我们提供了在MegaDepth上训练的LoFTR的结果†以便进行公平的比较。在本次评估中†LoFTR†也大大优于DRC-Net(见图5),这表明我们的模型在数据集中的泛化性。
户外姿态估计结果。如表 3 所示,LoFTR 在 AUC@10° 时比无探测器方法 DRC-Net 性能高出 61%,证明了 Transformer 的有效性。对于 SuperGlue,我们使用开源本地化工具箱 HLoc [36] 中的设置。LoFTR的性能远远优于SuperGlue(AUC@10°时为13%),这证明了无探测器设计的有效性。与室内场景不同,LoFTR-DS在MegaDepth上的性能优于LoFTR-OT。更多的定性结果可以在图5中找到。
视觉定位。除了在相对姿态估计方面实现具有竞争力的性能外,LoFTR 还可以实现视觉定位,这是估计给定图像相对于相应 3D 场景模型的 6 自由度姿态的任务。我们在长期视觉定位基准[43](下文中称为VisLoc基准)上评估LoFTR。它侧重于对不同条件下的视觉定位方法进行基准测试,例如昼夜变化、场景几何变化以及具有大量无纹理区域的室内场景。因此,视觉定位任务依赖于高度稳健的图像匹配方法
评估。我们在 VisLoc 的两条轨道上评估了 LoFTR,这些轨道包含几个挑战。首先,“手持设备的视觉定位”轨道需要完整的本地化管道。它基于两个数据集进行基准测试,即关于室外场景的AachenDay-Night数据集[38,54]和关于室内场景的InLoc [41]数据集。我们使用开源本地化管道 HLoc [36] 和 LoFTR 提取的匹配项。其次,“用于长期本地化的局部特征”轨道提供了一个固定的定位管道,用于评估局部特征提取器本身和匹配器(可选)。该跟踪使用亚琛 v1.1 数据集 [54]。我们在补充材料中提供了在 VisLoc 上测试 LoFTR 的实现细节。
结果。我们在表 4 和表 5 中提供了 LoFTR 的评估结果。我们已经评估了与最佳传输层或双软最大算子的 LoFTR 配对,并报告了结果更好的那个。LoFTR-DS 在局部特征挑战轨道中优于所有基线,显示出其在昼夜变化下的鲁棒性。然后,对于手持设备轨道的视觉定位,LoFTR-OT 在具有挑战性的 InLoc 数据集上优于所有已发布的方法,该数据集包含广泛的外观变化、更多无纹理区域、对称和重复元素。我们将这一突出性归因于Transformer和最佳传输层的使用,利用全球信息,共同将全球共识带入决赛。无探测器设计也起着关键作用,防止了基于探测器的方法在低纹理区域的可重复性问题。LoFTR-OT 在亚琛 v1.1 数据集的夜间查询中的表现与最先进的方法 SuperPoint + SuperGlue 相当,但在白天查询时表现稍差。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。