细粒度语言-图像预训练：FILIP: FINE-GRAINED INTERACTIVE LANGUAGE- IMAGE PRE-TRAINING_filip: fine-grained interactive languageimage pre-

作者：你好赵伟 | 2024-05-12 22:28:55

踩

filip: fine-grained interactive languageimage pre-training

论文地址：

无监督的大规模视觉语言预训练在各种下游任务上显示出了良好的进展。现有的方法通常通过模拟跨模态交互的相似性，即每个模态的全局特征的相似性，要么使用视觉和文本标记上的交叉/自注意力来模拟更精细粒度的交互。

然而，交叉/自注意力在训练和推理方面的效率都较低。在本文中，作者引入了一种大规模的细粒度交互语言-图像预训练（FILIP），通过跨模式的晚期交互机制来实现更精细的对齐，该机制使用视觉和文本标记之间的标记级最大相似性来指导对比目标。

FILIP 通过只修改对比性损失，成功地利用了图像块和文本单词之间的细粒度表达能力，同时获得了在推理时离线预计算图像和文本表示的能力，保持了大规模训练和推理的效率。

此外，作者还构建了一个新的大规模图像

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/你好赵伟/article/detail/560810