赞
踩
论文来源:SIGIR 2021
论文链接:https://dl.acm.org/doi/abs/10.1145/3404835.3462871
数据集地址:待补充
作者认为:
模型包括了:
采用ResNet-50和Bert分别对视觉、文本进行编码
将Bert的12层encoder输出分组,文章中分成3组,即14,58,9~12三组,由于concat会增加计算复杂度,所以作者直接通过sum求和不改变特征的维度,得到三个特征t1, t2, t3。
这一层的输入共有4个,3个是分层融合得到的文本特征,1个是ResNet提取到的视觉特征。
对于每一个注意力模块,输入都是1个文本特征,1个视觉特征。模型中这三个注意力模块都是共享参数的。
对于模块的内部,有两轮操作,每轮分两步。视觉和文本特征轮流作为Q、K、V。比如:
第二轮和第一轮类似,只不过视觉特征和文本的顺序交换一下。得到的特征称为 C I T C_{IT} CIT。
两轮的结果做一个组合: C i = α ∗ C T I + ( 1 − α ) ∗ C I T , i ∈ [ 0 , 2 ] C_i=\alpha*C_{TI}+(1-\alpha)*C_{IT},i\in[0,2] Ci=α∗CTI+(1−α)∗CIT,i∈[0,2]
将上一层输出的 C i C_i Ci做concat拼接起来,送入全连接层分类。
总的结果:
消融实验的结果:
从上到下依次为:
除此之外,作者还讨论了bert编码的分组数对结果的影响:
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。