赞
踩
作者:Yan Ling, Jianfei Yu, Rui Xia
会议:ACL 2022
单位:南京理工大学
分别使用
预训练的视觉、文本模型,忽略了模态间的对齐关系。通用预训练任务
的视觉-语言模型,不足以识别细粒度的aspect、opinion和模态间的对齐关系。模型骨干是BART,a denoising autoencoder for sequence-to-sequence models。将其扩展为同时编码文本和视觉输入,可解码不同模态的预训练任务或下游任务。
标识
visual features,textual input的起始和结束。标识
不同预训练任务,分别都用两个special tokens作为解码器输入的开始。
Masked Language Modeling(MLM):对齐文本和视觉特征
mask的策略和BERT一样;
损失函数如下,
X
~
\widetilde {X}
X
指的是masked的拼接后的多模态输入
X
X
X。
L
M
L
M
=
−
E
X
∼
D
∑
i
=
1
T
l
o
g
P
(
e
i
∣
e
<
i
,
X
~
)
L_{MLM}=-\mathbb E_{X \sim D} \sum_{i=1}^{T} log P(e_i|e_{<i}, \widetilde{X})
LMLM=−EX∼Di=1∑TlogP(ei∣e<i,X
)
Textual Aspect-Opinion Extraction(AOE)
:生成文本中的aspects和opinions
数据集中不提供aspect和opinion的标注,需用其他的方法构造监督信号
。
an index generation task:生成所有aspects和opinions的起止下标。
L A O E = − E X ∼ D ∑ t = 1 O l o g P ( y t ∣ Y < t , X ) L_{AOE}=-\mathbb E_{X \sim D} \sum_{t=1}^OlogP(y_t|Y_{<t},X) LAOE=−EX∼Dt=1∑OlogP(yt∣Y<t,X)
用以下两个任务捕获图像中的主体和客体信息
Masked Region Modeling(MRM):预测masked region的semantic class distribution
在编码器输入端,regions以15%的概率随机被mask,相应的特征会改为零向量。
在解码器输入端,masked region的提示词为,其余为。
在解码器输出后,所有的会追加一个MLP分类器,用以预测其semantic class distribution,记为 p ( v ) p(v) p(v)。
损失函数:减少预测分布和target分布的KL散度。Z指masked regions的数量。
L
M
R
M
=
E
X
∼
D
∑
z
=
1
Z
D
K
L
(
q
(
v
z
)
∣
∣
p
(
v
z
)
)
L_{MRM}= \mathbb E_{X\sim D}\sum_{z=1}^ZD_{KL}(q(v_z)||p(v_z))
LMRM=EX∼Dz=1∑ZDKL(q(vz)∣∣p(vz))
例子如图所示
Visual Aspect-Opinion Generation(AOG)
:生成图像中的aspect-opinion对
监督信号
ANPs的类分布
,概率最高的ANP
作为监督信号。a sequence generation task
G = { g 1 , . . . , g ∣ G ∣ } G=\{g_1,...,g_{|G|}\} G={g1,...,g∣G∣}指target ANP的tokens, ∣ G ∣ |G| ∣G∣指ANP tokens的数量
公式流程:
损失函数:
L
A
O
G
=
−
E
X
∼
D
∑
i
=
1
∣
G
∣
l
o
g
P
(
g
i
∣
g
<
i
,
X
)
L_{AOG}=-\mathbb E_{X\sim D}\sum_{i=1}^{|G|}logP(g_i|g_{<i},X)
LAOG=−EX∼Di=1∑∣G∣logP(gi∣g<i,X)
例图[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-7W2DprLy-1668692099370)(C:/Users/26282/AppData/Roaming/Typora/typora-user-images/image-20221112163228101.png)]
不像前两类预训练任务,MSP的监督信号是多模态的。识别文本和视觉的客观信息,以及他们之间的对齐关系。
Multimodal Sentiment Prediction(MSP)
MVSA-Multi数据集提供粗粒度的情感标签,将其作为监督信号。
a classification task
公式流程:
损失函数:
L
M
S
P
=
−
E
X
∼
D
l
o
g
P
(
s
∣
X
)
L_{MSP}=-\mathbb E_{X\sim D}logP(s|X)
LMSP=−EX∼DlogP(s∣X)
例图
目标函数
L
=
λ
1
L
M
L
M
+
λ
2
L
A
O
E
+
λ
3
L
M
R
M
+
λ
4
L
A
O
G
+
λ
5
L
M
S
P
L=\lambda_1L_{MLM}+\lambda_2L_{AOE}+\lambda_3L_{MRM}+\lambda_4L_{AOG}+\lambda_5L_{MSP}
L=λ1LMLM+λ2LAOE+λ3LMRM+λ4LAOG+λ5LMSP
下游任务:MABSA的3个子任务,即Joint Multimodal Aspect-Sentiment Analysis(JMASA),Multimodal Aspect Term Extraction(MATE),和Multimodal Aspect-oriented Sentiment Classification(MASC)。
模型:和预训练任务一样
模型输出
index generation tasks
下游数据集使用TWITTER-2015和TWITTWE-2017评估VLP-MABSA模型
以weak supervision为例具体分析每个预训练任务的效果,只加入MLM、MRM提效甚微,AOE、AOG提高很明显,特别是MSP。
MM是没有预训练的多模态输入的框架,VLP是预训练后的。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。