赞
踩
ICLR 2022:https://openreview.net/forum?id=cpDhcsEDC2
无监督的大规模视觉语言预训练在各种下游任务上显示出了良好的进展。现有的方法通常通过模拟跨模态交互的相似性,即每个模态的全局特征的相似性,要么使用视觉和文本标记上的交叉/自注意力来模拟更精细粒度的交互。
然而,交叉/自注意力在训练和推理方面的效率都较低。在本文中,作者引入了一种大规模的细粒度交互语言-图像预训练(FILIP),通过跨模式的晚期交互机制来实现更精细的对齐,该机制使用视觉和文本标记之间的标记级最大相似性来指导对比目标。
FILIP 通过只修改对比性损失,成功地利用了图像块和文本单词之间的细粒度表达能力,同时获得了在推理时离线预计算图像和文本表示的能力,保持了大规模训练和推理的效率。
此外,作者还构建了一个新的大规模图像
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。