赞
踩
DLEF是在弱监督下学习的,仅仅使用图像级标签,并结合用于语义特征选择的注意力机制。注意力机制是用来关键点选择,与descriptor共享网络层。
为了适当评估大规模图像检索算法的性能,引入了Google Landmarks数据集(包含1M以上的数据库图像)。
使用DELF进行图片检索主要有四步:
提取密集的局部特征(by FCN,ResNet50作为baseline)
关键点选择(注意力机制)(用来比较特征间的相关性)(首先根据上一步微调学习到descriptors,然后在给定固定的descriptors的情况下学习score函数)
降维(降低所选特征的维度,提高检索精度)(首先L2 normalized,然后通过PCA将维度降到40,最后再次L2 normalized)
索引和检索
图像检索系统
首先从query images和database images中提取特征 descriptors,在每张图片中,选择预定义数量的注意力分数最高的局部特征。
图片检索是基于nearest neighbor search(KD-tree和Product Quantization的结合)实现的。用PQ将每个descriptor编码为50位的码,其中每个40维的特征descriptor被分为10个等维度的子向量,并通过k均值聚类识别每个子矢量的2^5个质心,去实现50位的编码。执行非对称距离计算,其中不对query descriptors进行编码,以提高nearest neighbor retrieval的准确率。
为了加快nearest neighbor search的速度,使用大小为8K的码本为desctiptors构造了一个倒置的索引。 为了减少编码错误,使用KD-tree对每个Voronoi单元进行分区,并对每个少于30K特征的子树采用Locally Optimized Product Quantizer。
当query给出后,会对从query image提取出的descriptor进行一个approximate nearest neighbor search。然后对于从索引中检索到的前K个最接近的局部descriptors,将每个数据库图像的匹配项进行汇总。最后,使用RANSAC进行几何验证,同时采用inliers的数量作为检索图像的分数。因为干扰项的特征可能与landmark图像的特征不一致,所以许多干扰的query images都被几何验证这步拒绝了。
该pipeline需要少于8GB的内存来索引10亿个描述符,这足以处理大规模landmark数据集。 在当前的实验设置下,使用单个CPU进行最近邻居搜索的等待时间不到2秒,其中为每个query软分配5个质心,并在每个反向索引树中搜索多达1万个叶节点。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。