赞
踩
Attention mechanism,恩,也就是他的字面意思,我们对序列进行注意力分配,也就是使重要的信息更加的突出,不明显的信息被弱化或者忽略。这个机制具体怎么体现的呢?接下来我们来分析一下attention机制的原理。
在理解atention之前,最好对encoder-decoder框架有一点了解,因为,目前很多的attention机制依附于这个框架来实现。我们这里讲解的seq2seq中的注意力机制是以rnn单元构成的encoder-decoder框架的翻译模型来进行分析,encoder-decoder我们可以理解为将序列经过encoder之后压缩为一个定长的向量,我们再将这个向量传输给decoder来进行解码。这样子的缺点是:
因此,我们需要一个更好的表示,我们在decoder的每一个rnn cell中,我们取出了encoder所有隐藏层的输出,并同时给予不同的权重,经过映射传给decoder的当前rnn cell,(参看下图)这就是简单的attention机制。并且,Attention本身可以做为一种对齐关系,解释翻译输入/输出句子之间的对齐关系。那么这个权重怎么计算呢?
和论文一样采用倒序的方式分析,首先我们定义一个条件概率模型:
p
(
y
i
∣
y
1
,
.
.
.
,
y
i
−
1
,
x
)
=
g
(
y
i
−
1
,
s
i
,
c
i
)
(1)
\bm{p(y_i|y_1, . . . , y_{i−1}, x) = g(y_{i−1}, s_i, c_i) \tag1}
p(yi∣y1,...,yi−1,x)=g(yi−1,si,ci)(1)
这里
s
i
s_i
si是decoder的不同时步 rnn cell 的 hidden state,
c
i
c_i
ci是一个context vector 或者我们可以叫做 attention vector。我们在来看
s
i
s_i
si :
s
i
=
f
(
s
i
−
1
,
y
i
−
1
,
c
i
)
(2)
\mathbf{s_i = f(s_{i−1}, y_{i−1}, c_i) \tag2}
si=f(si−1,yi−1,ci)(2)
当前状态的
s
i
s_i
si 由上一个状态的 hidden state (
s
i
−
1
s_{i-1}
si−1) 和 当前的context vector 共同决定。我们再来看
c
i
c_i
ci 怎么得到:
c
i
=
∑
j
=
1
T
x
α
i
j
h
j
(3)
\bm{c_i =∑_{j=1}^{T_x}α_{ij}h_j\tag3}
ci=j=1∑Txαijhj(3)
其中,i 表示decoder端的第i个词,
h
j
h_j
hj表示encoder端的第j个词的隐向量,
a
i
j
a_{ij}
aij表示encoder端的第j个词与decoder端的第i个词之间的权值,
a
i
j
a_{ij}
aij的计算公式为:
α
i
j
=
e
x
p
(
e
i
j
)
∑
k
=
1
T
x
e
x
p
(
e
i
k
)
(4)
\bm{α_{ij} =\frac{exp (e_{ij} )}{∑_{k=1}^{T_x} exp (e_{ik})}\tag4}
αij=∑k=1Txexp(eik)exp(eij)(4)
根据这里
a
i
j
a_{ij}
aij的取值不同,可以分为不同的attention 机制:
e
i
j
e_{ij}
eij的计算如下:
e
i
j
=
a
(
s
i
−
1
,
h
j
)
(5)
\bm{e_{ij} = a(s_{i−1}, h_j )\tag5}
eij=a(si−1,hj)(5)
a a a 有以下三种:
note:第二个W矩阵是训练得到的参数,维度是d2 x d1,d2是s的hidden state输出维数,d1是hi的hidden state维数,其中,W1 = d3xd1,W2 = d3*d2,v = d3x1 ,d1,d2,d3分别为h和s还有v的维数,属于超参数。
我们把
e
i
j
e_{ij}
eij 叫做 匹配度 或者 attention score ,这个匹配度是将 encoder 的每一个rnn cell 的
h
t
h_t
ht 和 decoder 当前的 rnn cell的
h
t
h_t
ht 通过 映射
a
a
a 得到,
Attention函数的本质可以被描述为一个查询(query)到一系列(键key-值value)对的映射,如下图:
首先,解释一下Q,K,V分别代表的含义:
Q:Decoder中RNN cell 的输出h;
K:Encoder中每个 time_step的输出h;
V:K=V;
在计算attention时主要分为三步,如下:
https://zhuanlan.zhihu.com/p/47063917
https://arxiv.org/pdf/1409.0473.pdf
https://blog.csdn.net/qq_41058526/article/details/80578932
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。