基于手绘草图的图像检索：Sketch Me That Shoe_sketchtriplet

作者：Cpp五条 | 2024-03-06 01:06:00

踩

sketchtriplet

摘要

1.首次解决了基于手绘图进行细粒度图像实例检索(SBIR, sketch-based image retrieval)的问题。
2.推出了两个新的细粒度SBIR数据集
3.基于大量辅助的数据利用triplet ranking模型进行了阶段性的预训练
4.对深度学习模型如何从增加的数据集中获得更好的提升进行了进一步的实验探索。

数据集

包含鞋和椅子两个数据集，共计716对草图-照片对。其中鞋的数据集包含419对，椅子的数据集包含297对。

损失函数

采用了常用的triplet loss:

采用了孪生网络，上图的每个分支网络结构均为Sketch-a-Net，不过由于是检索任务而不是分类任务，因此在此处去除了Sketch-a-Net中的classification层，以fc7层作为特征的输出层。另外将fc7的输出神经元个数由512调整为256，并添加了L2正则化。

训练过程

1. 对Sketch-a-Net进行初步训练：利用ImageNet-1K数据图像抽取edge map对Sketch-a-Net重新进行分类训练。

2. 对Sketch-a-Net进行Fine-tuning: 利用TU-Berlin的手绘数据及相应的数据增强方式对上一步训练得到的Sketch-a-Net进行微调。

3. 对Sketch-Photo Ranking进行初步训练：当训练好Sketch-a-Net网络后，由该网络参数对Sketch-Photo的triplet loss 网络进行初始化。在该阶段，从TU-Berlin Sketch和ImageNet Photo两个数据集中选择共有的187个种类的图像及草图，并借助Sketch-a-Net对Sketch进行了剔除，最终选取了60%的Sketch。之后，利用sketch和photo的类别信息组建了category-level的数据组合对Sketch-Photo 的triplet Ranking进行初次训练。

数据增强

1. Stroke Removal

不同于一次性获取的照片图像，手绘图像存在绘制顺序问题，因此它们自然也就包含了时序或者次序信息，通过有选择性的移除不同的strokes便可获取更多的sketch数据。作者认为草图的大体轮廓所包含包含信息的重要程度高于细节部分、越长的线条包含越重要的信息、人们往往倾向于先画大体轮廓再填充细节。基于这些观点，利用下式对i-th stroke进行剔除：

2. Stroke Deformation

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/Cpp五条/article/detail/195098