当前位置:   article > 正文

干货 | ICLR 2024 基于多粒度的不确定性建模的图文检索

干货 | ICLR 2024 基于多粒度的不确定性建模的图文检索

点击蓝字

e7a80f16686bc5869fb1c312cdc31818.jpeg

关注我们

AI TIME欢迎每一位AI爱好者的加入!

在本篇工作中,研究者探索了一种统一的学习方法,通过考虑多粒度的不确定性来同时对粗粒度和细粒度的图像检索进行建模。论文的方法集成了不确定性建模和不确定性正则化来提高召回率并增强检索过程,在三个公共数据集FashionIQ Fashion200k 和 Shoes 上,所提出的方法在 baseline 上分别提高了 +4.03% 、+ 3.38% 和 + 2.40% Recall@50。

26e55f016cceb96f3ec682abf4892bff.png

论文题目:

Composed Image Retrieval with Text Feedback via Multi-Grained Uncertainty Regularization

论文链接:

https://arxiv.org/abs/2211.07394


论文代码:

https://github.com/Monoxide-Chen/uncertainty_retrieval

一、背景

典型的检索过程包含两个步骤,即粗粒度检索和细粒度检索。粗粒度检索利用简短或不精确的描述查询图像,而细粒度检索则需要更多细节进行一对一映射。

之前工作有什么痛点?  

1. 传统的图像检索系统要求用户提前提供准确的查询图像,通常是不好获得;而添加文本反馈,用户则可以对查询图像进行的修改,来逐渐细化他们的搜索。

2. 现有的组合搜索方法通常侧重于在训练过程中优化严格的成对距离,这与一对多粗粒度测试设置不同。过多关注一对一度量学习会削弱模型对潜在候选图片的召回能力。

二、方法

1、总览  

bd4b0c2c0e5abdb28e5353e0184ef6c3.png

在这篇论文中,研究者不追更精细的网络结构,而是采用一种新的学习策略。因此,主要遵循现有的工作CosMo[1]来构建网络以进行公平比较,更多的结构细节在论文中进行了提供。

给定源图像 92f9386fc1a0dcd3aa6f6647da2f5de5.jpeg 和用于修改的文本 42ba63c801e9e0dd9b5b6e8c3f002e0f.jpeg,我们通过Compositor组合 0556749768a862d3db7ff13b86eeb00b.jpegc788b2460eee3af65c65c9148021fe30.jpeg 得到了组合特征7271c646f2f6b9cc738b27233c20e865.png。同时,我们通过与源图像相同的Image Encoder提取了目标图像 3dcc6d87cda890d828b2e37be14a2147.jpeg 的视觉特征c4b22324edb09cd2771f982b0c3b4b9a.png。我们的主要贡献是通过Augmenter进行不确定性建模,以及对粗匹配进行的不确定性正则化。  

2、不确定性建模  

3c8f7cd6ec23719f496c2fb03963aa0b.png

如上图所示,不再采用严格的一对一匹配,而是促使模型专注于一对多匹配,即从细粒度过渡到粗粒度。因此,首先引入了一个用于噪声增强的Augmenter来生成抖动,这个模块直接作用于最终的特征空间。具体而言,Augmenter向目标特征31f780e684bb04a233cd0d0a1f96fbb7.png添加原始特征分布的高斯噪声。高斯噪声的均值 52bb34ad655061dce223895507baa4bb.jpeg 和标准差14a9bfcbce9085ef14912c1dfa28cc05.png是从原始特征5a1ba7ecea55dcf17082c9dc2a4e9862.png计算得出的。因此,最终的抖动特征 5a0684aa6d0a3b7a67c99ff9f015a098.png可以表示为:

83f4a942b66b18b1dbb899c4809ef100.png

其中,声明:本文内容由网友自发贡献,转载请注明出处:【wpsshop】

推荐阅读
相关标签