赞
踩
论文:https://arxiv.org/pdf/2205.12005.pdf
代码:AliceMind/mPLUG at main · alibaba/AliceMind · GitHub
学习VLP模型的一个巨大挑战是在这两种模态之间找到良好的对齐方式,以缩小两者之间的语义差距。最近的工作以端到端的方式实现了图像和文本表示之间的直接对齐,但是在建模长视觉序列时存在两个问题:
本文通过引入一个新的带skip-connection结构的非对称vision-language模块解决这个问题。
图1a:简单的将视觉和语言特征串联作为输入,实现视觉和语言的早期融合,通过自注意力从底层对齐模态。这种方法对来自两种模态的信息进行同等处理,这可能会导致信息不对称,尤其是当模态之间的信息密度或序列长度存在较大差异时。
图1b:在两种模态上独立进行多模式融合,有助于缓解信息不对称问题。然而,对于长视频序列仍然存在计算效率低下的问题,并且对于两个独立的transformer结构,参数效率并不是很高。
图1c:本文提出了mPLUG,通过跨模态跳跃连接来实现高效的视觉语言学习,以解决基本的信息不对称问题。模型首先在前几层采用非对称的co-attention架构,通过移除视觉侧的co-attention来提高效率,再将原始的视觉表示和语言侧的co-attention的输出串联输入到一层self-attention。
模型框架:
利用拼接跨模态融合的有效性和非对称co-attention的效率,以递归方式增强跨模态融合
视觉和语言的表征输入到由多个跳跃连接融合块组成的跨模态跳跃连接网络中。在每个skip-connected融合块中,我们对S个不对称的co-attention层中的输出再进行拼接方式的跨模态融合。
模型预训练任务:
Prefix Language Modeling (PrefixLM):自回归生成任务。
Masked Language Modeling (MLM):与Bert预训练任务一致。
Image-Text Matching (ITM):图像文本匹配二分类任务,同样参考ITC的分数取hard负例。
对比不同多模态融合方法的耗时和性能,其中Asymmetric co-attention融合是BLIP模型中的结构,Encoder端的text特征与vit输出的image特征进行Cross-attention特征融合。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。