赞
踩
多标签图像和视频分类是计算机视觉中最基本但又极具挑战性的任务.主要的挑战在于捕获标签之间的空间或时间依赖,并发现每个类的区别特征的位置.为了克服这些挑战,我们提出利用交叉模态注意和语义图嵌入来进行多标签分类.在构造标签图的基础上,提出了一种基于邻接的相似图嵌入方法来学习语义标签嵌入,这种方法能明确利用标签之间的关系。在标签嵌入的指导下,生成了新的交叉模态注意图。在两个多标签图像分类数据集(MS-COCO和NUS-WIDE)上的实验表明,我们的方法优于现有的其他先进技术。此外,我们在一个大型的多标签视频分类数据集(YouTube-8M段)上验证了我们的方法,评估结果证明了我们方法的泛化能力。
多标签图像分类(MLIC)和多标签视频分类(MLVC)是计算机视觉中的重要任务,其目标是预测图像或视频中出现的一组类别.与单标签分类(例如给图像或视频分配一个标签)相比,多标签分类在互联网搜索、安全监控、机器人等许多应用中更有用.由于MLIC和MLVC是非常相似的任务,在接下来的技术讨论中,我们将主要关注MLIC,它的结论可以自然地移植到MLVC中.
近年来,随着深度卷积神经网络(deep Convolutional Neural Networks, CNN)的发展,单标签图像分类取得了很大的成功。但是,这种幼稚的扩展通常会提供较差的性能,因为会忽略多个标签之间的语义依赖性,这对于多标签分类尤其重要.因此,许多先前的工作旨在通过递归神经网络(RNN)捕获标签关系。 但是,这些方法没有对语义标签和图像区域之间的显式关系建模,因此它们缺乏充分利用图像中空间依赖性的能力。
MLIC的另一个解决方案是引入目标检测技术。部分方法使用额外的边界框标注提取区域建议,这种标注比简单的图像级标注昂贵得多,其他多种方法应用注意机制自动聚焦于感兴趣的区域。但是,注意区域的习得只能通过图像层面的监督,缺乏明确的语义指导(无法知道习得的注意区域是否是对应标签真实的对应区域)。针对上述问题,我们认为一个有效的多标签分类模型应该具备两个能力:(1)根据空间上下文捕获多标签之间的语义依赖;(2)用更多的语义引导定位感兴趣的区域。
本文提出了一种新的基于图嵌入的交叉模态注意网络,从而在搜索可区分区域的同时标注空间语义依赖关系。首先,提出了一种新的基于邻接的相似图嵌入(ASGE) 方法,该方法捕获了标签之间丰富的语义关系。其次,学习后的标签嵌入将在交叉模态指导方面指导注意区域的生成,本文将其称为交叉模态注意(Cross-modality Attention, CMA),与传统的自我注意方法相比,我们的attention机制明确地引入了丰富的标签语义关系。得益于CMA机制,我们的注意区域更有意义和更有辨别力。因此,它们在抑制噪声或背景信息对分类产生影响的同时捕获了更多有用的信息。本文的主要贡献简述如下:
∙
\bullet
∙ 我们提出了一种ASGE方法来学习语义标签嵌入和显式利用标签相关性。
∙
\bullet
∙ 我们提出了一种新颖的注意范式,即交叉模态注意,其中注意图是通过利用更多先验语义信息生成的,从而产生了更有意义的注意图。
∙
\bullet
∙ 本文提出了一种结合CMA和ASGE模块的多标签分类总体框架,如图1和图2所示,该框架可以捕获空间和语义空间之间的依赖关系,有效发现识别特征的位置。我们在用于MLIC任务的MS-COCO数据集和NUS-WIDE数据集上评估了我们的框架,并且在两者上均实现了最新的性能。 我们还在MLVC的YouTube-8M数据集上评估了我们提出的方法,该方法也取得了出色的性能。
最近,MLIC的任务引起了越来越多的关注。解决这个问题最简单的方法是独立对待每个类别,然后将任务直接转换为一系列二分类任务。然而,这种技术受到的限制是不考虑标签之间的关系。最新的工作(Chen et al. 2019)通过图卷积网络探索了标签依赖关系。但是,上述方法都没有考虑到语义标签与图像内容之间的关联,并且没有充分利用图像的空间上下文。
在MLIC任务中,视觉概念与图像局部区域高度相关。为了更好地挖掘局部的信息,一些研究引入区域提案技术,以关注信息区域,类似地,Zhu等人(2017)提出了空间正则化网络来生成标签相关的注意图,并通过注意图隐含地捕获潜在关系,上述注意方法的优点是不需要额外的步骤来获取区域方案,但注意区域的习得仅通过图像层面的监督,缺乏明确的语义指导,而本文利用标签语义嵌入,将语义引导引入到注意图的生成中,极大地提高了预测性能.
本文通过图嵌入学习标签语义嵌入,这是一种旨在学习图结构数据表示的技术。这些方法的一个主要假设是图上相邻节点的嵌入是相似的,而在我们的任务中,我们还要求非相邻节点的嵌入是相互排斥的,因此,我们提出了一种ASGE方法,可以进一步分离非相邻节点的嵌入.
我们的MLIC和MLVC方法的总体框架分别如图1和图2所示:流程包括以下几个阶段:首先,以标签图作为ASGE模块的输入来学习标签嵌入,从而对标签之间的语义关系进行编码。其次,将学习到的标签嵌入和视觉特征一起输入CMA模块,以获得按类别分类的注意图。最后,分类注意图被用来加权平均每个类别的视觉特征。我们将详细描述我们的两个关键组件ASGE和CMA。
图1:MLIC任务模型的总体框架,标签嵌入由ASGE(基于邻接的相似图嵌入)模块获得。首先利用骨干网络提取视觉特征,然后通过CMT模块将其投影到语义空间中,得到投影的视觉特征,将学习到的标签嵌入和投影的视觉特征一起输入到CMA模块中,以生成按类别分类的关注图,其中每一个都用于对视觉特征进行加权平均并生成按类别聚合的特征。 最后,将分类器应用于最终预测
如第1节所述,标签之间的关系在多标签分类任务中起着至关重要的作用。然而,如何表达这种关系是一个有待解决的问题,我们的直觉是标签之间的共现属性可以用联合概率来描述,这种联合概率适合于标签关系的建模.但是,联合概率容易受到类别失衡的影响。取而代之的是,我们利用标签之间的条件概率来解决此问题,这是通过将联合概率除以边际概率来归一化而获得的。基于此,可以构造标签图,其中标签为节点,标签之间的条件概率为边缘权重。受到图形嵌入方法在自然语言处理(NLP)任务中的流行应用的启发,其中将学习到的标签嵌入作为附加信息输入网络,我们提出了一种新颖的ASGE方法来对标签关系进行编码。
我们正式地定义这个图为
G
=
(
V
,
G
)
\mathcal{G}=(V,G)
G=(V,G),其中
V
=
{
v
1
,
v
2
,
.
.
.
v
N
}
V=\{v_1,v_2,...v_N\}
V={v1,v2,...vN}表示
N
N
N个节点的集合且
C
C
C表示边。图
G
\mathcal{G}
G的邻接矩阵
A
=
{
A
i
,
j
}
i
,
j
=
1
N
A=\{A_{i,j}\}_{i,j=1}^N
A={Ai,j}i,j=1N包含与每条边相关的非负权值.具体来说,
V
V
V是标签的集合,
C
C
C是任意两个标签之间的连接集合,邻接矩阵
A
A
A是通过设置
A
i
j
=
P
(
v
i
/
v
j
)
A_{ij} = P (v_i / v_j)
Aij=P(vi/vj),得到的条件概率矩阵,其中
P
P
P是通过训练集来计算的(
p
(
v
j
∣
v
i
)
p(v_j|v_i)
p(vj∣vi)表示在标签
v
i
v_i
vi出现的情况下,
v
j
v_j
vj出现的概率),由于
p
(
v
i
∣
v
j
)
≠
p
(
v
j
∣
v
i
)
p(v_i|v_j)≠p(v_j|v_i)
p(vi∣vj)=p(vj∣vi),也就是
A
i
j
≠
A
j
i
A_{ij}≠A_{ji}
Aij=Aji,为了获得更好的优化,我们将
A
A
A对称化:
位置为
(
i
,
j
)
(i,j)
(i,j)时,
A
A
A表示在
j
j
j标签出现时
i
i
i标签出现的概率,
A
T
A^T
AT表示在
i
i
i标签出现时
j
j
j标签出现的概率,则公式中
A
′
A'
A′将两个矩阵进行平均获得一个对陈化矩阵。
为了捕获由图结构定义的标签相关性,我们应用神经网络将每个标签
o
i
o_i
oi的独热(one-hot)嵌入映射到语义嵌入空间并产生标签嵌入:
e
i
e_i
ei表示标签
i
i
i的标签嵌入.其中
Φ
\Phi
Φ表示由三层全连接层组成的神经网络(全连接层本质就是由一个特征空间线性变换到另一个特征空间,目标空间的任一维,也就是隐层的一个 cell,都认为会受到源空间的每一维的影响。可以说,目标向量是源向量的加权和),然后进行批归一化(BN)和ReLU激活。我们的目标是实现最优的标签嵌入集合
E
=
{
e
i
}
i
=
0
N
E=\{e_i\}_{i=0}^N
E={ei}i=0N,其中
e
i
∈
R
C
e
e_i∈\mathbb{R}^{C_e}
ei∈RCe,这样,对于所有
i
,
j
i,j
i,j,
c
o
s
(
e
i
,
e
j
)
cos(e_i,e_j)
cos(ei,ej)都接近
A
i
j
A_{ij}
Aij,其中
c
o
s
(
e
i
,
e
j
)
cos(e_i,e_j)
cos(ei,ej)表示
e
i
e_i
ei和
e
j
e_j
ej之间的余弦相似度(由于
A
i
,
j
A_{i,j}
Ai,j表示在标签
j
j
j出现的情况下
i
i
i出现的概率,
c
o
s
(
e
i
,
e
j
)
cos(e_i,e_j)
cos(ei,ej)表示
i
,
j
i,j
i,j标签的标签嵌入之间的相似度,越趋近于1时两个向量的夹角越小,也代表两个标签之间越相似)。因此,目标函数的定义如下:
式中,
L
g
e
\mathcal{L_{ge}}
Lge表示我们的图嵌入的损失值,
e
T
e
j
∣
∣
e
i
∣
∣
∣
∣
e
j
∣
∣
\frac{e^Te_j}{||e_i||||e_j||}
∣∣ei∣∣∣∣ej∣∣eTej表示的就是两个标签余弦的相似度,由于没有标签的谁先谁后之分,也就是说
A
′
A'
A′就是为了获得两个标签之间的相似度,所以才将互相出现的概率进行平均,损失值就是将每一个位置上的
(
i
,
j
)
(i,j)
(i,j)获得的余弦相似度与
A
i
j
′
A'_{ij}
Aij′计算差并将所有位置的差进行加和。
优化放松:为了优化
E
q
.
3
Eq.3
Eq.3,余弦相似度
c
o
s
(
e
i
,
e
j
)
cos(e_i,e_j)
cos(ei,ej)需要对所有的
i
,
j
i,j
i,j来说都要接近于对应的边权重
A
i
j
A_{ij}
Aij,但是,这种严格的约束很难满足,尤其是在图比较大且稀疏的情况下,为了解决这个问题,我们在
E
q
.
3
Eq.3
Eq.3中引入了一个超参数
α
\alpha
α来放松优化:
其中,
σ
i
j
\sigma_{ij}
σij是一个指示函数(当本身两个标签之间的相关度比较小并且余弦相似度也很小,证明两个标签之间的关系很小,所以忽略掉,就不在意两个标签之间的相关度了,不参与损失值的计算):
通过增加这个松弛,当
A
i
j
<
α
A_{ij}<\alpha
Aij<α时,只需要使嵌入对
(
e
i
,
e
j
)
(e_i,e_j)
(ei,ej)远离而不是严格让
c
o
s
(
e
i
,
e
j
)
cos(e_i,e_j)
cos(ei,ej)强制为
A
i
j
A_{ij}
Aij,从而更注重标签之间的紧密关系,降低优化的难度。
我们正式将多标签分类任务定义为一个映射函数
F
:
x
→
y
F: x \to y
F:x→y,其中
x
x
x为输入图像或视频,
y
=
[
y
1
,
y
2
,
.
.
.
y
N
]
y = [y_1,y_2,...y_N]
y=[y1,y2,...yN]为对应标签,
N
N
N为标签类别总数,并且
y
n
∈
{
0
,
1
}
y_n∈\{0,1\}
yn∈{0,1}表示标签是否分配给图像还是视频。
针对多标签分类,我们提出了一种新的注意机制——交叉模态注意(CMA),它利用语义嵌入来指导视觉特征的空间的整合。这里的语义嵌入是由ASGE实现的标签嵌入集
E
=
{
e
i
}
i
=
0
N
E=\{e_i\}_{i=0}^N
E={ei}i=0N,并且通过骨干神经网络
ψ
ψ
ψ提取了视觉特征
I
=
ψ
(
x
)
I =ψ(x)
I=ψ(x)。请注意,对于不同的任务,我们只需要应用不同的主干来提取视觉特性,框架的其余部分对于这两个任务完全是通用的。
主干网路:在MLIC任务中,我们使用ResNet-101网络提取最后一个卷积特征图作为视觉特征。另外,我们使用
1
×
1
1×1
1×1卷积进行降维(将通道数压缩),得到最终的视觉
f
e
a
t
u
r
e
feature
feature
m
a
p
map
map
I
∈
R
H
×
W
×
C
I∈\mathbb R^{H×W×C}
I∈RH×W×C,其中
H
×
W
H×W
H×W为最后一张
f
e
a
t
u
r
e
feature
feature
m
a
p
map
map的空间分辨率,
C
C
C为channel的数量.
跨模态注意力attention:ASGE学习的标签嵌入构成了语义嵌入空间,而CNN Backbone提取的特征定义了视觉特征空间.我们的目标是让语义嵌入指导注意力图的生成。然而,由于模态的不同,语义嵌入空间与视觉特征空间存在语义鸿沟.为了衡量不同模式之间的兼容性,我们首先学习一个从视觉特征空间到语义嵌入空间的映射函数,然后通过投影的视觉特征(也就是从原始的特征空间投影到了语义嵌入空间当中的视觉特征)与语义嵌入之间的余弦相似度(即跨模态注意)来衡量模式的兼容性.
首先,我们通过跨模态转换器(Cross-Modality Transformer, CMT)模块将视觉特征投影到语义空间中,该模块由若干个
1
×
1
1×1
1×1卷积层构建,后续接一个
B
N
BN
BN和一个
R
e
L
U
ReLU
ReLU激活函数:
其中
I
S
∈
R
M
×
C
e
(
M
=
W
×
H
)
I_S∈\mathbb{R}^{M×C_e}(M = W × H)
IS∈RM×Ce(M=W×H),
f
c
m
t
f_{cmt}
fcmt表示CMT模块的映射功能,通过计算标签嵌入
e
k
e_k
ek与
I
s
i
I^i_s
Isi(
I
s
I_s
Is位置
i
i
i处的投影视觉特征向量)之间的余弦相似度(直接计算视觉特征是否与标签相关),得到特定类别跨模态注意图
z
k
i
z_k^i
zki(就直接根据图片的特征获得了标签所应该关注的区域):
将分类特异性注意图
z
k
i
z_k^i
zki归一化(就是将每一个通道上面的
W
×
H
W×H
W×H的矩阵上的所有位置注意力总和设置为1,这样就可以更好的注意与标签相关的区域)为:
z
k
i
z^i_k
zki表示标签
k
k
k在
i
i
i位置处的注意力值,对于每个位置
i
i
i,如果CMA机制产生较高的正值,则可以将其解释位置
i
i
i与标签嵌入
k
k
k的语义高度相关或相对于其他位置更重要,因此在考虑类别
k
k
k时,模型需要关注位置
i
i
i.然后利用类别特有的跨模态注意图对每个类别的视觉特征向量进行加权平均:
其中
h
k
h_k
hk是标签
k
k
k的最终特征向量,然后将
h
k
h_k
hk输入全连接层来估计类别
k
k
k的概率:
其中
w
k
∈
R
C
w_k∈\mathbb R^C
wk∈RC并且
b
b
b是可学习参数.
y
k
∗
y_k^*
yk∗是标签
k
k
k的预测概率。为方便起见,我们将整个CMA模块的计算表示为
y
k
∗
=
f
c
m
a
(
I
,
E
)
y^∗_k = f_{cma}(I, E)
yk∗=fcma(I,E).
与所有类别共享注意力图的一般单一注意力地图方法相比,我们的CMA模块有两方面的优势:首先,我们的分类注意图与类别
k
k
k对应的图像区域相关,从而更好地学习与类别相关的区域。其次,在标签语义嵌入的指导下,发现的注意区域可以更好地与标注的语义标签匹配.
我们框架的潜在优势是捕获潜在的空间依赖性,这对于视觉模糊标签很有帮助.如图3所示,我们以飞盘为例来解释空间依赖性.首先,ASGE模块通过标签图来学习标签嵌入,标签图对标签关系进行编码.由于【狗】和【飞盘】经常是共存的,而【眼镜】则不是,因此,【狗】和【飞盘】的标签嵌入彼此靠近,并且都远离【眼镜】,即
e
d
≈
e
f
≠
e
g
e_d≈e_f≠e_g
ed≈ef=eg,训练过程中的优化会使视觉特征与对应的标签嵌入的余弦相似度变高(也就是之间的夹角越小,越相似),也就是说,
c
o
s
(
e
d
,
v
d
′
)
,
c
o
s
(
e
g
,
v
g
′
)
和
c
o
s
(
e
f
,
v
f
′
)
cos(e_d, v'_d), cos(e_g, v'_g) 和cos(e_f , v'_f )
cos(ed,vd′),cos(eg,vg′)和cos(ef,vf′)会变大(就是将三个标签的标签嵌入和分别对应的视觉特征之间的余弦值变大,从而使得空间中标签与所对应的视觉特征距离越相近),由于
e
d
≈
e
f
≠
e
g
e_d≈e_f≠e_g
ed≈ef=eg,
c
o
s
(
e
f
,
v
f
′
)
cos(e_f,v'_f)
cos(ef,vf′)(【飞盘】的视觉特征和标签嵌入)也会很大,然而
c
o
s
(
e
f
,
v
g
′
)
cos(e_f,v'_g)
cos(ef,vg′)(【飞盘】标签嵌入与【眼镜】的视觉特征)会很小。【飞盘】的最终特征表示为:
h
f
=
β
1
v
g
+
β
2
v
f
+
β
3
v
d
h_f = β_1v_g + β_2v_f + β_3v_d
hf=β1vg+β2vf+β3vd
其中
β
1
=
c
o
s
(
e
f
,
v
g
′
)
,
β
2
=
c
o
s
(
e
f
,
v
f
′
)
,
β
3
=
c
o
s
(
e
f
,
v
d
′
)
.
β_1 = cos(e_f , v'_g), β2 = cos(e_f , v'_f ), β3 = cos(e_f , v'_d).
β1=cos(ef,vg′),β2=cos(ef,vf′),β3=cos(ef,vd′).,表示的意思是:
【飞盘】的特征=
(【飞盘】的标签嵌入与【眼镜】的视觉特征余弦相似度
∗
*
∗原始的【眼镜】视觉特征)
+(【飞盘】的标签嵌入与【飞盘】的视觉特征余弦相似度
∗
*
∗原始的【飞盘】视觉特征)
+(【飞盘】的标签嵌入与【狗】的视觉特征余弦相似度
∗
*
∗原始【狗】的视觉特征).
因此,【飞盘】的识别取决于与语义相关的标签【狗】而不与标签【眼镜】有关(因为
β
1
β_1
β1太小了),这表明我们的模型能够捕获空间依赖性,特别地,考虑到【飞盘】是很难识别的情况(飞盘太小了),
β
2
β_2
β2将很小.幸运的是,
β
3
β_3
β3可能仍然是大的,所以【狗】的视觉信息将是一个有用的上下文,以帮助识别标签【飞盘】
图3说明潜在的空间依赖性。不同的颜色表示不同的类别。实箭头表示学习到的标签嵌入,表示为
e
e
e,虚线箭头表示通过CMT模块投影的可视化特征,表示为
v
′
v'
v′,标签嵌入和投影的视觉特征(即
α
,
β
和
γ
α,β和γ
α,β和γ)之间的角度代表类别注意得分
Multi-Scale CMA(多尺度CMA):单一尺度的特征表示对于不同尺度的多个对象可能是不够的。值得注意的是,注意力attention的计算包括在特征图的所有位置上的标签密集的嵌入,也就是说,特征图的空间分辨率可能会影响关注结果。我们的直觉是低分辨率的特征图对小物体有更强的表征能力,而高分辨率则相反。CMA机制的设计使其能够通过分数融合策略自然地应用于多尺度特征图。特别地,我们提取了一组feature map
{
I
1
,
I
2
,
…
,
I
L
}
\{I_1, I_2,…, I_L\}
{I1,I2,…,IL},多尺度CMA的最终预测概率为(就是说对于不同的特征图来计算标签
k
k
k的预测值然后再进行加和):
训练损失:最后,我们定义了多标签分类的损失函数:
其中
w
k
w_k
wk被用来减轻类不平衡的情况,
β
β
β是超参数,而
p
k
p_k
pk是训练集中标签
k
k
k的比率.
为了评估我们的模型,我们在两个基准多标签图像识别数据集(MS-COCO (Lin et al. 2014)和NUS-WIDE (Chua et al. 2009)上进行了实验。
实现细节。在ASGE模块中,三个隐藏层和标签嵌入层的尺寸均设置为256。由于标签图相对较小,此处未应用优化松弛。优化器为动量为0.9的随机梯度下降(SGD),初始学习率为0.01。在分类部分,对输入图像进行随机裁剪,并将其大小调整为448×448,随机水平翻转进行增强。优化器weight decays为 1 0 − 5 10^{-5} 10−5,初始学习率为0.01,每30个epoch衰减10倍.MS-COCO 数据集中 E q . 12 Eq.12 Eq.12中的超参数 β β β为0,在此基础上,我们实现了两个模型:CMA和多尺度CMA(MS-CMA),MS-CMA模型使用三个尺度特征: I 1 ∈ R 28 × 28 × 1024 , I 2 ∈ R 14 × 14 × 1024 I_1∈\mathbb R^{28×28×1024},I_2∈\mathbb R^{14×14×1024} I1∈R28×28×1024,I2∈R14×14×1024来自骨干网络 R e s N e t − 101 ResNet-101 ResNet−101,对 I 2 I_2 I2添加一个残差块变为 I 3 ∈ R 7 × 7 × 512 I_3∈\mathbb R^{7×7×512} I3∈R7×7×512,而CMA模型只使用 I 2 I_2 I2.
评价指标:我们使用与其他工作相同的评估方法,包括每个类别和整体指标:精度(CP和OP),召回率(CR和OR)和F1(CF1和OF1)。 此外,我们还计算平均平均精度(mAP),它比其他指标相对重要,并且我们主要关注mAP的性能。
MS-COCO数据集的结果:在MLIC任务中广泛使用的是MS-COCO数据集。它包含122,218张图片,80个标签,几乎每个图片有2.9个标签。根据官方提供的分割标准,我们将数据集分为两部分:82081张用于训练的图像和40137张用于测试的图像
我们与当前发布的最新方法进行了比较,包括CNN-RNN(Wang等人,2016),RNN Attention( Multi-label image recognition by recurrently discovering attentional regions),无序RNN(Chen等人,2018), ML-ZSL(Multi-label zero-shot learning with structured knowledge graphs),SRN(Zhu等人2017)和Multi-Evidence(Multi-evidence filtering and fusion for multi-label classification, object detection and semantic segmentation based on weakly supervised learning)。 此外,我们运行ML-GCN(Chen et al.2019)发布的源代码进行训练并获取结果进行比较。 CMA和MS-CMA模型的定量结果如表1所示。在几乎所有指标上,我们两个模型的性能均优于最新方法。特别地,我们的MS-CMA模型取得了比CMA模型更好的性能,说明了多尺度的关注提高了性能
消融实验:在本节中,我们将回答以下问题:
∙
\bullet
∙ 与主干(ResNet-101)模型相比,我们的CMA模型有显著的改进吗?
∙
\bullet
∙ 我们提出的CMA机制比一般的自我注意方法有优势吗?
∙
\bullet
∙ CMA能否扩展到多尺度并带来性能提升?
∙
\bullet
∙ 我们的ASGE是否比其他嵌入方法更有利,例如Word2vec?
表3:MS-COCO数据集上的mAP与几种模型的比较
为了回答这些问题,我们对MS-COCO数据集进行了消融研究,如表3所示。首先,我们研究了CMA对mAP的贡献。可以明显看出, ResNet-101的mAP达到79.9%,而加入CMA模块后增加到83.4%。这一结果表明了CMA机制的有效性.其次,我们实现了一种通用的自注意方法,将Eq.7替换为
z
i
=
σ
(
f
c
o
n
v
(
I
i
)
)
z^i =\sigma(f_{conv}(I^i))
zi=σ(fconv(Ii)),其中
f
c
o
n
v
f_{conv}
fconv为
1
×
1
1 × 1
1×1卷积层的映射函数.我们的CMA机制通过提高2.3%的mAP,比常规的自我注意机制表现更好,这表明标签语义嵌入引导的关注机制由于引入了更多的先验信息而优于常规的自我注意机制,第三,将我们的CMA机制扩展到多个规模可以获得约0.4%的改善,该结果表明,我们的注意力机制非常适合多尺度特征。 最后,我们将ASGE与其他嵌入方法进行了比较,在本文中,我们以Word2vec为例,这是一组用于生成单词嵌入的相关模型.实验结果表明,我们基于ASGE的MS-CMA的性能比基于Word2vec的MS-CMA(表示为W2V-MS-CMA)提高了1.3%。在我们的ASGE中,标签关系被明确表示为邻接矩阵作为一个直接优化目标。相反,Word2vec以数据驱动的方式隐式编码标签关系,而没有直接优化标签关系。因此,我们的ASGE将更好地捕捉标签关系
可视化及分析:在本节中,我们将学习的注意力图可视化,以说明利用区分性或有意义区域并捕获空间语义依赖性的能力。
我们在图4中显示注意力可视化示例。 三行分别显示了由CMA模型生成的类别注意图和一般自我注意。可以看出,CMA模型比一般的自我注意更集中在语义区域上,并且具有更强的响应能力,因此它能够利用更多的区别性和有意义的信息。此外,我们的CMA机制能够捕获空间语义依赖,特别是对于图像中出现的不可识别或较小的物体,例如运动球的注意力也会因为语义相似而关注网球拍。这是非常有用的,因为这些物体需要更丰富的上下文线索来帮助识别
图4:注意力图的可视化。 第一列:原始图像,第二列和第四列:分别为MS-CMA和自我注意的注意力图,第三列和第五列:分别投映在MS-CMA和自我注意的原始图像上的注意力图。
本文针对MLIC任务和MLVC任务,提出了一种新的带有语义图嵌入的跨模注意机制,该方法能有效地发现具有丰富区分特征的语义位置,获取标签间的时空依赖关系。在两个MLIC数据集MS-COCO和NUS-WIDE上的广泛评价表明,我们的方法优于现有技术
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。