赞
踩
基于CNN的图像搜索的pipeline:端到端的学到输入图片的global feature,然后根据该global feature进行相似性度量。比如人脸识别,person/vehicle re-id等领域,通过metric learning为每张输入图片学到一个固定长度的特征,通过常见距离度量方式进行相似度比对,排序即可。
需要注意的是:人脸,人体,车辆可视为细分领域的细粒度检索,可通过检测得到region of interest,并且均为刚体,有着良好的关键点信息,具有明确语义的关键点信息对细粒度特征挖掘帮助极大。但是对于通用的图像检索,往往没有具有明确语义的关键点信息,比如商品检索,地标检索,cnn很难一把梭了
我们以在ImageNet上预训练的ResNet50模型为基础,通过微调来提升局部表达的判别能力。如图4(a)所示。
- Fine tuning preprocessing:
- - Center crop to square image
- - Rescale to 250x250
- - Randomly crop 224x224
不同于人脸,人体,车辆,将提取的特征直接用于图像检索,论文设计了一种可以有效提取特征子集的方法。因为直接提取的特征有相当一部分对地标识别任务是没有用的,会给检索带来不好的结果,因此关键点检测对检索系统来说就显得尤为重要。论文
在ResNet50 conv4_x的输出后接入attention模块,以此来获得局部特征表达的相关得分。为了能够训练该函数,首先使用加权的求和池化对特征进行降维,该权重是attention网络的预测值。如图4(b)所示,其中attention网络用黄色标注。该方法先对整张输入图像生成嵌入(embedding),之后训练softmax地标分类器。
为了可以解决尺寸变化的问题,构建图像金字塔,对每级分别应用FCN。获得的特征图可以看成是局部表达的一种稠密网格。根据感受野可以对特征进行定位,根据卷积层和池化层的参数可以计算特征图大小。使用感受野中心的像素作为特征的位置,图像感受野的原始尺寸是291 × 291。使用图像金字塔之后,我们可以获得描述不同尺寸的图像区域的特征。
- Attention preprocessing:(7 different scales)
- - Center crop to square image
- - Rescale to 900x900
- - Randomly crop 720x720
- - Randomly rescale with gamma < 1
vs 传统方法
论文关键点挑选是在表达提取之后,这和当前的先进行关键点检测再进行表达的方法有所不同(SIFT 和 LIFT )。传统的特征点检测主要是根据低级特征,在成像条件下进行重复性的关键点检测。然而对于高级识别任务如图像检索来说,挑选出可以判断不同目标的关键点也很重要。本文提出的方法实现了两个目的,第一是训练了一个在特征图中编码更高级语义信息的模型,第二是学习挑选适用于分类任务的判别特征。这和最近提出的根据SIFT 匹配收集训练数据的关键点检测方法LIFT[40]有所不同。尽管我们没有刻意让模型去学习位置和视角的变化,但它却自己主动完成了,这点和基于CNN的图像分类方法很相似。
,对查询图像和数据库图像提取预先确定数量的局部特征
我们的图像检索系统是基于最近邻搜索方法,该方法是在 KD-tree 和 Product Quantization (PQ) 行近似最近邻搜索。之后对于从索引中检索出的前top K(K取60)个局部特征,我们对数据库中的每张图像的所有匹配进行了聚合。最后,我们使用RANSAC [ 10 ]进行几何验证,用局内点的数量代表检索图像的得分。
整个模型(DELF+FT+ATT)与它的变形版本,
DELF-noFT表示提取的特征是基于在ImageNet上预训练的CNN网络,而没有使用微调和attention学习;
DELF+FT表示使用微调但没有使用attention模型,
DELF-noFT+ATT表示使用attention但没有使用微调。
如下图所示,微调和attention模型都有助于性能的提升。特别值得注意的是,使用attention得到的提升比微调得到的多。这表明,从attention层提取的特征,尽管是在ImageNet上预训练的,但仍然可以挑选出对检索任务来说最具有判别能力的特征。
提出的attention模型的优点是可以清晰地进行定性说明,而对微调得到的特征进行
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。