当前位置:   article > 正文

Large-scale image retrieval with attentive deep local features(DELF)阅读笔记_delf csdn

delf csdn
  • 本文提出了一种专门为大规模图像检索应用程序设计的局部特征descriptor,即DELF。
  • DLEF是在弱监督下学习的,仅仅使用图像级标签,并结合用于语义特征选择的注意力机制。注意力机制是用来关键点选择,与descriptor共享网络层。

  • 为了适当评估大规模图像检索算法的性能,引入了Google Landmarks数据集(包含1M以上的数据库图像)。

  • 使用DELF进行图片检索主要有四步:

    1. 提取密集的局部特征(by FCN,ResNet50作为baseline)

    2. 关键点选择(注意力机制)(用来比较特征间的相关性)(首先根据上一步微调学习到descriptors,然后在给定固定的descriptors的情况下学习score函数)

    3. 降维(降低所选特征的维度,提高检索精度)(首先L2 normalized,然后通过PCA将维度降到40,最后再次L2 normalized)

    4. 索引和检索

  • 图像检索系统

    1. 首先从query images和database images中提取特征 descriptors,在每张图片中,选择预定义数量的注意力分数最高的局部特征。

    2. 图片检索是基于nearest neighbor search(KD-tree和Product Quantization的结合)实现的。用PQ将每个descriptor编码为50位的码,其中每个40维的特征descriptor被分为10个等维度的子向量,并通过k均值聚类识别每个子矢量的2^5个质心,去实现50位的编码。执行非对称距离计算,其中不对query descriptors进行编码,以提高nearest neighbor retrieval的准确率。

    3. 为了加快nearest neighbor search的速度,使用大小为8K的码本为desctiptors构造了一个倒置的索引。 为了减少编码错误,使用KD-tree对每个Voronoi单元进行分区,并对每个少于30K特征的子树采用Locally Optimized Product Quantizer。

    4. 当query给出后,会对从query image提取出的descriptor进行一个approximate nearest neighbor search。然后对于从索引中检索到的前K个最接近的局部descriptors,将每个数据库图像的匹配项进行汇总。最后,使用RANSAC进行几何验证,同时采用inliers的数量作为检索图像的分数。因为干扰项的特征可能与landmark图像的特征不一致,所以许多干扰的query images都被几何验证这步拒绝了。

    5. 该pipeline需要少于8GB的内存来索引10亿个描述符,这足以处理大规模landmark数据集。 在当前的实验设置下,使用单个CPU进行最近邻居搜索的等待时间不到2秒,其中为每个query软分配5个质心,并在每个反向索引树中搜索多达1万个叶节点。

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/从前慢现在也慢/article/detail/375770
推荐阅读
相关标签
  

闽ICP备14008679号