赞
踩
文本到图像的合成是一项具有挑战性的任务,它从文本序列中生成真实的图像,与相关的图像相比,文本序列所包含的信息有限,因而具有模糊性和抽象性。有限的文本信息仅对场景进行部分描述,会使生成过程复杂化,对其他细节进行含蓄的补充,从而导致图像质量低下。
为了解决这个问题,我们提出了一种新的富特征生成文本到图像合成,称为RiFeGAN,以丰富给定的描述。为了提供更多的视觉细节,避免冲突,RiFeGAN 利用了 attention-based caption matching model,从先验知识中选择并提炼出the compatible candidate captions。有了丰富的caption RiFeGAN使用self-attentional embedding mixtures有效地从它们中提取特征,并进一步处理发散的特征。然后利用multi-captions attentional生成对抗网络将这些特征合成为图像。在广泛使用的数据集上进行的实验表明,该模型可以从丰富的数据集生成图像并显著改善结果。
从文本描述中生成真实的图像是近年来最活跃的研究领域之一,由于自然语言是与人交互的最简单的方式之一,文本到图像的合成在许多领域都发挥着重要的作用,如字幕中的双重学习机制,并具有广泛的潜在应用,如美术生成、计算机辅助设计、幼儿教育等。
最近,许多方法致力于改善GAN(BigGANs)和训练方法(Wasserstein GANs)来合成高质量的图片,但是,由于自然语言的模糊性、抽象性和信息的有限性,一个caption缺乏对对象的详细信息。因此,条件生成器需要补充这些细节,这将使生成器复杂和训练困难。
如上图所示,每个说明只描述了一只鸟的部分特征,训练可以同时利用来自同一幅图像的几个相应的说明,提供更详细的信息。因此,与只有一个caption且信息有限的合成图像(b)相比,生成的图像(d)更接近真实图像。
此外,大量的caption很难直接处理来合成图像。因此没有使用self-attentional embedding mixtures(SAEMs)生成的图像©不如图像(d)。为了缓解信息有限的问题,有效地产生令人满意的视觉细节,需要检索附加的说明文字,明确的补充,以丰富描述。为了检索the compatible captions,我们引入了一个attention-based caption matching model,从训练数据集建立的先验知识中选择候选字幕。通过对候选caption的嵌入和给定caption的比较,从候选caption中选择补充caption,以提高语义一致性。例如,给定第一个标题1),其他的可以作为补充来检索,以提供额外的信息。
由于大量的caption能够提供更多的视觉细节,但是计算机理解他们的语义是非常困难的,为了解决这个困难,因此我们使用Attentional model来提取每一个caption的特征,然后使用self-attentional embedding mixtures来融合这些特征。
Pang等人的模型将文本匹配作为图像识别,通过构造一个匹配矩阵来表示单词之间的相似性,并用卷积神经网络来获取匹配模式;(Liang Pang, Yanyan Lan, Jiafeng Guo, Jun Xu, Shengxian Wan, and Xueqi Cheng. Text matching as image recognition. In AAAI Conference on Artificial Intelligence, pages 2793–2799, 2016.)
Wan等人[29]提出了一种利用位置语句表示的深层体系结构,该结构由双向长短期记忆(Bi-LSTM)、k-Max池和多层感知器生成,以匹配两个句子。(Shengxian Wan, Yanyan Lan, Jiafeng Guo, Jun Xu, LiangPang, and Xueqi Cheng. A deep architecture for semantic matching with multiple positional sentence representations.10919 In AAAI Conference on Artificial Intelligence, volume 16,pages 2835–2841, 2016.)
Lee等人[14]提出了一种堆叠交叉注意模型来对齐图像区域和单词,并计算图像-文本相似度。(Kuanghuei Lee, Xi Chen, Gang Hua, Houdong Hu, and Xiaodong He. Stacked cross attention for image-text matching.In Proceedings of European Conference on Computer Vision,ECCV, pages 212–228, 2018)
Yang等人提出了一个快速、强的RE2,通过多个对齐过程来匹配两个句子。(Runqi Yang, Jianhai Zhang, Xing Gao, Feng Ji, and HaiqingChen. Simple and effective text matching with richer alignment features. In Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics, pages 4699–4709, 2019.)
大多数基于GANs-based的生成方法已经在图像生成方面取得了很大的进展:
Chatpainter利用Skip-thought 或RNNs对对话语句进行编码,计算嵌入内容,然后直接将嵌入内容输入StackGAN合成图像。本文利用字幕匹配来丰富描述,并利用SAEMs在注意框架下从多个Caption中提取特征。结果证明,这个模型是有效的,C4Synth 合成一幅图像需要多次运行,模型需要字幕模型生成字幕,这使得模型在训练时更加复杂。与C4Synth不同的是,我们的工作直接利用一个丰富的或多个字幕的字幕,使得完整的生成器对每个图像只执行一次,并且不需要字幕模型来帮助训练。此外,我们的工作,首先利用字幕丰富产生丰富的特征和SAEMs更有效地利用多字幕,取得了显著的改进。
在图2中,给出一个标题,我们首先对其进行丰富,而不是直接合成图像。在caption匹配中,由于一幅图像在公共数据集中有多个caption,类似于人类记忆,所以我们将训练部分的每幅图像及其标题作为知识库中的一个项来处理
(记忆)。因此,丰富过程将从知识库中检索出兼容条目,并对条目的标题进行细化,以返回最佳补语作为图2的中间部分。然后,在丰富字幕的基础上,提出了一种带有SAEMs的注意GAN,可以有效地利用字幕合成图像。
给定一个字幕,字幕匹配需要返回与之兼容的字幕来增强字幕,这在自然语言处理中是一个困难问题,为了简化这个问题,我们把这个问题当作一个信息检索问题,并且从训练数据集召回相关的问题。
因此,给定一个数据集,我们将其视为先验知识,一个知识库
Ω
\Omega
Ω ={
ω
i
\omega_i
ωi },其中,每一项
ω
i
\omega_i
ωi由一张图片
I
i
I_i
Ii和它的字幕
ω
i
=
I
i
+
{
t
i
,
k
}
k
=
0
N
k
\omega_i=I_i+\{t_{i,k}\}^{N^k}_{k=0}
ωi=Ii+{ti,k}k=0Nk . 给定一个字幕t和它对应的
ω
i
\omega_i
ωi,我们利用 RE2来评估它们的兼容分数:
S
c
o
m
p
a
t
(
t
,
ω
i
)
=
1
N
T
∑
k
=
0
N
T
S
R
E
2
(
t
,
t
i
,
k
)
S_{compat}(t,\omega_i)=\frac{1}{N^T}\sum_{k=0}^{N^T}S_{RE2}(t,t_{i,k})
Scompat(t,ωi)=NT1k=0∑NTSRE2(t,ti,k)
其中, S R E 2 ( t 1 , t 2 ) S_{RE2}(t_1,t_2) SRE2(t1,t2)返回的是给定字幕 t 1 t_1 t1和 t 2 t_2 t2的匹配分数;
该记分器由多个编码器、对齐层和融合层构成,如图二第二块。
编译器用几个相同的卷积网络来提取上下文嵌入的词语,而不是利用循环网络。
对齐层计算两个序列
{
c
1
,
i
}
\{c_{1,i}\}
{c1,i}和
{
c
2
,
i
}
\{c_{2,i}\}
{c2,i}的公式如下:
{
c
1
,
i
′
=
∑
j
α
i
,
j
′
⋅
c
2
,
j
c
2
,
i
′
=
∑
j
α
j
,
i
′
⋅
c
1
,
j
\left\{
其中, α i , j ′ \alpha'_{i,j} αi,j′是注意力权重,与 { c 1 , i } \{c_{1,i}\} {c1,i}和 { c 2 , i } \{c_{2,i}\} {c2,i}的点积成正比。
融合层由向前反馈网络构成,用来融合 c ∗ , i ′ c'_{*,i} c∗,i′和 c ∗ , j c_{*,j} c∗,j.然后利用多层向前反馈模型来返回匹配分数。
由于字幕组
ω
i
\omega_i
ωi同时描述标题
{
t
i
,
k
}
k
=
0
N
k
\{t_{i,k}\}^{N^k}_{k=0}
{ti,k}k=0Nk和图像
I
i
I_i
Ii,所以它们是兼容的。因此,我们可以从字幕组
ω
i
\omega_i
ωi中随机选择一个
t
i
t_i
ti来构建一个正样本
(
t
i
,
ω
i
,
c
)
(t_i,\omega_{i,c})
(ti,ωi,c),并选择字幕组中的其他部分作为上下文
ω
i
,
c
\omega_{i,c}
ωi,c。因为不同的字幕可能会发生冲突,所以我们选择
ω
r
(
i
)
\omega_{r(i)}
ωr(i)中的字幕
t
r
(
i
)
t_{r(i)}
tr(i)来构建反样本
(
t
r
(
i
)
,
ω
i
,
c
)
(t_r(i),\omega_{i,c})
(tr(i),ωi,c)(其中,
r
(
i
)
)
≠
i
r(i))\ne i
r(i))=i是
Ω
\Omega
Ω中的一个随机索引,并且索引项的不同类。因此,与侧重于项目间相对偏好的两两排序损失相似,将匹配分数形成logistic回归,训练损失为:
L
compat
(
Ω
)
=
−
1
N
T
∑
i
=
0
N
T
σ
(
S
compat
(
t
i
,
ω
i
,
c
)
)
+
σ
(
S
compat
(
t
r
(
i
)
,
ω
i
,
c
)
)
其中, θ \theta θ是一个sigmoid函数。
给定一个字幕t,k优的字幕用 ω k ( t ) \omega_k(t) ωk(t)表示,可以由 ω \omega ω通过公式一得到。为了提高语义一致性,并进一步排除冲突的字幕,我们选择嵌入比其他字幕在余弦相似度上更接近t的 N t e s t N^{test} Ntest字幕来细化字幕。
在文本-图像合成中,给定一个标题,通过使用一个文本编码器创建嵌入的e,并将其输入条件GANs生成图像。AttnGAN[30]可以有效的用不同的单词绘制不同的子区域。因此,如图三我们构建了带有SAEMs和MultiCap-DAMSM。
F i a t t n ( h i , w ) = [ ∑ k = 1 T α 1 , k w k , ⋯ , ∑ k = 1 T α N 3 , k w k ] F_{i}^{a t t n}\left(h_{i}, w\right)=\left[\sum_{k=1}^{T} \alpha_{1, k} w_{k}, \cdots, \sum_{k=1}^{T} \alpha_{N_{3}, k} w_{k}\right] Fiattn(hi,w)=[k=1∑Tα1,kwk,⋯,k=1∑TαN3,kwk]
其中,
N
3
=
N
w
⋅
N
h
N_3 = N_w·N_h
N3=Nw⋅Nh;
T
T
T是
w
w
w的长度;注意权值计算为:
α
j
,
k
=
exp
(
s
j
,
k
)
∑
k
(
exp
(
s
j
,
k
)
)
\alpha_{j, k}=\frac{\exp \left(s_{j, k}\right)}{\sum_{k}\left(\exp \left(s_{j, k}\right)\right)}
αj,k=∑k(exp(sj,k))exp(sj,k)
其中,
s
j
,
k
s_{j,k}
sj,k是
h
i
,
j
h_{i,j}
hi,j,
w
k
w_k
wk的点积;
F
c
a
F_{ca}
Fca是将嵌入的文本投射到一个较低的条件空间中的条件作用,以增强平滑性和增强鲁棒性。
在图3中,给定一组标题 T = { t i , k } k = 0 N k T =\{t_{i,k}\}^{N^k}_{k=0} T={ti,k}k=0Nk ,我们利用文本编码器 f w o r d t x t f^{txt}_{word} fwordtxt和 f c a p t x t f^{txt}_{cap} fcaptxt,这是双向长短时记忆(LSTMs)[23],提取 t j t_j tj的单词特征和句子特征:
基于注意力的模型已成功应用于许多领域,如双重任务、字幕等[7,15]。此外,Zhang等人[34]在convolutional GANs中引入了一种自我注意机制,在Inception score[22]上取得了显著的提高。
因此,我们引入SAEMs嵌入融合字幕。给定
F
i
F_i
Fi生成的每个
t
j
t_j
tj的隐藏状态
h
i
h_i
hi,计算其对应的嵌入量如下:
{
c
^
j
=
F
c
a
(
f
c
a
p
t
x
t
(
t
j
)
)
w
^
i
j
=
F
i
a
t
t
n
(
h
i
,
f
w
o
r
d
t
x
t
(
t
j
)
)
\left\{
其中
c
j
^
∈
R
N
C
\hat{c^j}∈R^{N_C}
cj^∈RNC是tj的整个嵌入;
ω
i
j
^
∈
R
N
i
∗
N
i
∗
N
w
\hat{\omega^j_i}∈R^{N_i * N_i * N_w}
ωij^∈RNi∗Ni∗Nw是条件嵌入,每个元素针对不同的单词。因此,为了提取字幕T的整体嵌入,我们利用自我注意模块[27]对嵌入进行融合,如下所示:
{
c
^
=
f
max
(
f
posw
(
L
M
H
A
(
[
c
^
0
,
c
^
1
,
⋯
,
c
^
N
T
]
)
)
)
w
^
i
=
f
max
(
f
posw
(
L
M
H
A
(
[
w
^
i
0
,
w
^
i
1
,
⋯
,
w
^
i
N
T
]
)
)
)
\left\{
其中 f m a x ( x ) f_{max}(x) fmax(x)返回一个张量,其元素在x的列中是最大的; f p o s w f_{posw} fposw是位置前馈网络, L M H A ( v ) L_{MHA}(v) LMHA(v)是一个多头注意层,
L
M
H
A
(
v
)
=
L
n
l
(
L
d
r
o
p
(
[
H
0
(
v
)
⋯
H
N
H
(
v
)
]
T
⋅
M
3
)
+
v
)
其中,
M
3
∈
R
N
H
⋅
N
i
×
N
i
M_3∈R^{N_H·N_i×N_i}
M3∈RNH⋅Ni×Ni是一个投影矩阵;
L
n
l
L_{nl}
Lnl是一种层归一化。注意功能
H
i
(
E
)
H_i(E)
Hi(E)定义为:
H
k
(
v
)
=
L
a
t
t
(
M
4
,
1
k
⋅
v
,
M
4
,
2
k
⋅
v
,
M
4
,
3
k
⋅
v
)
H_{k}(v)=L_{a t t}\left(M_{4,1}^{k} \cdot v, M_{4,2}^{k} \cdot v, M_{4,3}^{k} \cdot v\right)
Hk(v)=Latt(M4,1k⋅v,M4,2k⋅v,M4,3k⋅v)
其中,
M
4
,
1
j
,
M
4
,
2
j
,
M
4
,
3
j
∈
R
N
i
×
N
i
M_{4,1}^{j}, M_{4,2}^{j}, M_{4,3}^{j} \in R^{N_{i} \times N_{i}}
M4,1j,M4,2j,M4,3j∈RNi×Ni分别是将输入嵌入投影到问题空间、键空间、值空间中的矩阵。函数
L
a
t
t
(
Q
,
K
,
V
)
=
softmax
(
β
⋅
Q
⋅
K
T
)
⋅
V
L_{a t t}(Q, K, V)=\operatorname{softmax}(\beta\cdot\left.Q \cdot K^{T}\right) \cdot V
Latt(Q,K,V)=softmax(β⋅Q⋅KT)⋅V is the Scaled Dot-Product Attention,其中
β
\beta
β是一个尺度值,用来抵消小梯度的问题。
如图4所示,我们同时考虑标题T,并使用DAMSM[30]来引导。因此,MultiCap-DAMSM损失定义为:
L
^
D
A
M
S
M
(
I
,
T
)
=
∑
k
=
0
N
T
μ
k
⋅
L
D
A
M
S
M
(
I
,
t
k
)
\hat{L}_{D A M S M}(I, \mathbf{T})=\sum_{k=0}^{N_{T}} \mu_{k} \cdot L_{D A M S M}\left(I, t_{k}\right)
L^DAMSM(I,T)=k=0∑NTμk⋅LDAMSM(I,tk)
其中,
μ
k
\mu_k
μk为句子
t
k
t_k
tk的权重,表示句子
t
k
t_k
tk的重要性。公式10迫使生成的图像
I
I
I拟合整个描述T.
L
D
A
M
S
M
(
Q
,
D
)
L_{DAMSM}(Q,D)
LDAMSM(Q,D)为DAMSM的损失。
L
D
A
M
S
M
(
I
,
t
k
)
=
L
1
w
(
f
part
i
m
g
(
I
)
,
f
word
txt
(
t
k
)
)
+
L
2
w
(
f
part
img
(
I
)
,
f
word
txt
(
t
k
)
)
+
L
1
s
(
f
full
i
m
g
(
I
)
,
f
cap
t
x
t
(
t
k
)
)
+
L
2
s
(
f
full
i
m
g
(
I
)
,
f
cap
t
x
t
(
t
k
)
)
其中,
L
1
w
,
L
2
w
L_{1}^{w}, L_{2}^{w}
L1w,L2w和
L
1
s
,
L
2
s
L_{1}^{s}, L_{2}^{s}
L1s,L2s为单词和句子丢失函数[30],描述图像与对应字幕的匹配概率。给定一组图像-句子对,
L
1
w
L^w_1
L1w计算图像与字幕相似度的交叉熵损失;利用从
I
I
I中提取的词的嵌入和它们对应的注意表征之间的余弦相似度计算图像
I
I
I和标题
t
t
t之间的相似度。
L
2
w
,
L
1
s
and
L
2
s
L_{2}^{w}, L_{1}^{s} \text { and } L_{2}^{s}
L2w,L1s and L2s做类似的处理。
f
part
i
m
g
and
f
full
i
m
g
f_{\text {part}}^{i m g} \text { and } f_{\text {full}}^{i m g}
fpartimg and ffullimg利用所构建的图像编码器(inception -v3模型[25],1×1卷积层和多层感知器。)提取子区域特征和全局特征,
多字幕合成的图像必须符合这些字幕。因此,在这种约束下进行训练对生成是有益的。在多组的约束下,总值函数为:
V
(
D
1
,
⋯
,
D
K
,
G
1
,
⋯
,
G
K
∣
T
)
=
∑
i
=
1
K
{
E
x
∼
p
data
(
T
)
[
log
D
i
(
x
∣
T
)
]
+
E
x
^
∼
p
G
i
(
T
)
[
log
(
1
−
D
i
(
x
^
∣
T
)
)
]
}
+
λ
⋅
E
x
^
∼
p
G
K
(
T
)
[
L
^
D
A
M
S
M
(
x
^
,
T
)
]
其中,
x
^
∼
p
G
i
(
T
)
\hat{\boldsymbol{x}} \sim p_{G_{i}}(\mathbf{T})
x^∼pGi(T)图像是给定条件T由发生器
G
i
G_i
Gi合成的,
λ
\lambda
λ是用于调整约束的超参数,K是generator的级数。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。