AI-多模态-2021：FILIP【一种基于交互的细粒度图文预训练模型】_filip模型

作者：你好赵伟 | 2024-04-27 07:09:10

踩

filip模型

前言

FILIP（Fine-grained Interactive Language-Image Pretrain）是一种基于交互的细粒度图文预训练模型，用于解决图文双塔匹配模型中的细粒度匹配问题。本文对该论文进行阅读笔记，

论文：https://arxiv.org/abs/2111.07783

FILIP [1] 提出是为了解决图文匹配中的细粒度匹配问题。我们之前在博文 [2] 中曾经讨论过，在图文双塔匹配中，由于需要对图片塔的向量提前进行刷库，一些长尾的，形态较小的物体可能会在训练过程中被忽略，导致图文匹配的时候缺少对细粒度匹配的能力。为了解决这个问题，我们需要提供模型以图片和文本在线交互（online interaction）的能力，将图片以某种形式提取出每个区域的信息（ROI Detector检测每个ROI区域，或者单纯的划分patch，如ViT所做的那样），然后将文本和图片每个区域进行交互，从而模型有能力挖掘出图片中的一些细粒度信息。以第一种方式为例，如Fig 1.1所示，如果采用ROI Detector首先对图片的ROI区域进行提取，如红框所示，通过对文本『黄色桌子上的小黄人』进行在线匹配，即可实现对场景中的小黄人的细粒度匹配。

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/你好赵伟/article/detail/495417