当前位置:   article > 正文

detectandcompute 图像尺寸太大_基于深度局部特征的图像检索

为什么sift.detectandcompute的返回的keypoints值域会超过图像的size

c13f32fcf3219e61c454f2c87603ac29.png

959a918e59a9464639cfcb9bd987f11d.png

1.背景

基于CNN的图像搜索的pipeline:端到端的学到输入图片的global feature,然后根据该global feature进行相似性度量。比如人脸识别,person/vehicle re-id等领域,通过metric learning为每张输入图片学到一个固定长度的特征,通过常见距离度量方式进行相似度比对,排序即可。

需要注意的是:人脸,人体,车辆可视为细分领域的细粒度检索,可通过检测得到region of interest,并且均为刚体,有着良好的关键点信息,具有明确语义的关键点信息对细粒度特征挖掘帮助极大。但是对于通用的图像检索,往往没有具有明确语义的关键点信息,比如商品检索,地标检索,cnn很难一把梭了

92e9fa79aee76da987eca88462c04ffa.png

2.创新点

  • 提出一种用于大规模图像检索的注意力局部特征表达,称之为DELF(DEep Local Feature)。这种新型特征是从训练好的卷积神经网络中提取出来的,该卷积网络是在一个地标数据上使用图像级的标注完成训练的。
  • 为了能够获得具有语义信息的、对图像检索有利的局部特征,本文还提出一种用于关键点提取的注意力机制,该机制和特征表达共享大部分的网络层。本文的方法可以取代图像检索中其他的关键点检测和表达方法,获得更为准确的特征匹配和几何验证。

3.整体框架

2e3f7febf7d9f5650475d43d454afdea.png

3.1 DELF Pipeline

3.1.1 Fine-tune(FT)

我们以在ImageNet上预训练的ResNet50模型为基础,通过微调来提升局部表达的判别能力。如图4(a)所示。

  1. Fine tuning preprocessing:
  2. - Center crop to square image
  3. - Rescale to 250x250
  4. - Randomly crop 224x224

3.1.2 Attention-based Key-point Selection(ATT)

不同于人脸,人体,车辆,将提取的特征直接用于图像检索,论文设计了一种可以有效提取特征子集的方法。因为直接提取的特征有相当一部分对地标识别任务是没有用的,会给检索带来不好的结果,因此关键点检测对检索系统来说就显得尤为重要。论文

在ResNet50 conv4_x的输出后接入attention模块,以此来获得局部特征表达的相关得分。为了能够训练该函数,首先使用加权的求和池化对特征进行降维,该权重是attention网络的预测值。如图4(b)所示,其中attention网络用黄色标注。该方法先对整张输入图像生成嵌入(embedding),之后训练softmax地标分类器。

为了可以解决尺寸变化的问题,构建图像金字塔,对每级分别应用FCN。获得的特征图可以看成是局部表达的一种稠密网格。根据感受野可以对特征进行定位,根据卷积层和池化层的参数可以计算特征图大小。使用感受野中心的像素作为特征的位置,图像感受野的原始尺寸是291 × 291。使用图像金字塔之后,我们可以获得描述不同尺寸的图像区域的特征。

  1. Attention preprocessing:(7 different scales)
  2. - Center crop to square image
  3. - Rescale to 900x900
  4. - Randomly crop 720x720
  5. - Randomly rescale with gamma < 1

c5d9afc057fa8a97be6e8c8be58fc3b1.png

vs 传统方法

论文关键点挑选是在表达提取之后,这和当前的先进行关键点检测再进行表达的方法有所不同(SIFT 和 LIFT )。传统的特征点检测主要是根据低级特征,在成像条件下进行重复性的关键点检测。然而对于高级识别任务如图像检索来说,挑选出可以判断不同目标的关键点也很重要。本文提出的方法实现了两个目的,第一是训练了一个在特征图中编码更高级语义信息的模型,第二是学习挑选适用于分类任务的判别特征。这和最近提出的根据SIFT 匹配收集训练数据的关键点检测方法LIFT[40]有所不同。尽管我们没有刻意让模型去学习位置和视角的变化,但它却自己主动完成了,这点和基于CNN的图像分类方法很相似。

3.2 检索

  • 局部特征选取:DELF根据每张图像的attention score,选取score最大K个的local feature(论文中选用1000个)。
  • 特征后处理:分为3步,图搜索的常规操作了,首先
    equation?tex=l_%7B2%7D norm,然后PCA将维度降到40,最后对特征再使用一次
    equation?tex=l_%7B2%7D norm,因此每张图片的特征维度为(1000,40)。
  • 检索:
    • 值得一提的是,传统的直接用CNN提取的global特征只有一个,维度可以控制在256d,通常检索难度不大,但是基于delf局部特征的检索,尽管特征维度不高,但特征数量从1升至1000,对特征存储和实际检索带来了更大的挑战。
  • 得到top-k(60)个局部特征,最后采用RANSACA进行几何验证,得到inlier 数目,作为最终特分

,对查询图像和数据库图像提取预先确定数量的局部特征

我们的图像检索系统是基于最近邻搜索方法,该方法是在 KD-tree 和 Product Quantization (PQ) 行近似最近邻搜索。之后对于从索引中检索出的前top K(K取60)个局部特征,我们对数据库中的每张图像的所有匹配进行了聚合。最后,我们使用RANSAC [ 10 ]进行几何验证,用局内点的数量代表检索图像的得分。

4.实验

4.1 Quantitative Results

整个模型(DELF+FT+ATT)与它的变形版本,

DELF-noFT表示提取的特征是基于在ImageNet上预训练的CNN网络,而没有使用微调和attention学习;

DELF+FT表示使用微调但没有使用attention模型,

DELF-noFT+ATT表示使用attention但没有使用微调。

如下图所示,微调和attention模型都有助于性能的提升。特别值得注意的是,使用attention得到的提升比微调得到的多。这表明,从attention层提取的特征,尽管是在ImageNet上预训练的,但仍然可以挑选出对检索任务来说最具有判别能力的特征。

28fedc6d0027b50e47a08139608aad33.png

4.2 Qualitative Results

20da163efd82499c9c1cbfbfedfe786b.png


提出的attention模型的优点是可以清晰地进行定性说明,而对微调得到的特征进行

equation?tex=l_%7B2%7D 正则化得到的结果和没有使用微调的结果只有略微的差别。

e5bf906026f6224f996ec943c56a8543.png

5 总结

  • 创新点:本文提出的DELF只利用图像级标签信息(不需要检测框等信息)训练的局部特征提取方法,一次前向传播就可以完成关键点检测和特征表达,而非传统的先选择关键点再提取特征。
  • 缺点:
    • 图像金字塔,需要7次前向传播!!!
    • 特征量太大了!1000*40d,这对检索也提出了很大挑战。
声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/Gausst松鼠会/article/detail/367174
推荐阅读
相关标签
  

闽ICP备14008679号