赞
踩
本篇博客主要参考了2017年的在ICLR会议上发表的论文《BI-DIRECTIONAL ATTENTION FLOW FOR MACHINE COMPREHENSION》。
所谓机器阅读理解任务,指的就是给一段context描述,然后对应的给一个query,然后机器通过阅读context后,给出对应query的答案。这里做了一个假设,就是query的答案必须是能够在context原文中找到的一段话(也可以理解为连续的几个单词),也就是说最终模型预测的目标是输出两个下标,分别对应于query回答在context的开始位置和结束位置。最后模型的损失函数为多分类的交叉熵softmax(因为从本质上来讲该问题等效为一个多分类问题,问题的类别数等于context中单词的数量,也就是每一个单词都有可能作为answer的开始)。
整体来看,基于神经网络架构的机器阅读理解算法整体框架可以划分为以下几个主要功能模块:
1 输入编码模块。
2 context内容和query内容交互模块
3 输出预测模块
由于第二个模块相对于其他模块来说更加复杂,对最终模型性能的影响力最大,也是最能够体现出计算机智能的地方,因此在学术界更多创新的论文都是来自对该模型的改进。
接下来我来说一下该论文在这三个模块所采用的策略,首先展示该模型的整体架构图:
1 输入模块:
从上图可以清楚的看出,在该模型中的输入编码模块,首先采用word Embedding 和character Embedding策略生成对应每个单词的词向量。其中,word Embedding使用的算法是Glove,而character Embedding采用的是类似于yoon kim提出的卷积神经网络架构,只不过输入时每一个character Embedding,然后通过卷积和max-pooling生成词向量。接下来,将Character embedding和word embedding进行拼接,一起输入到双向LSTM中,这个部分被称之为Contextual Embedding layer,假设原文本的长度为
T
T
T,单向LSTM的输出维度为
d
∗
T
d*T
d∗T,那么双向LSTM的输出则为
2
d
∗
T
2d*T
2d∗T。
2 交互模块:
接下来在context内容和query内容交互模块部分,采用了context-to-query和query-to-context的double attention机制。假设context为
H
H
H,query为
U
U
U。首先针对context中的每一个单词和query中的每一个单词进行相似度的计算,这样就能生成一个相似度的矩阵
S
t
j
=
α
(
H
t
,
U
j
)
=
W
s
T
[
h
;
u
;
h
⨀
u
]
S_{tj}=\alpha(H_t,U_j)=W_{s}^T[h;u;h\bigodot u]
Stj=α(Ht,Uj)=WsT[h;u;h⨀u],其中
W
s
W_s
Ws是一个维度为
6
d
6d
6d的向量,它也是模型参数的一部分,随着模型一起进行训练。这个相似度矩阵
S
S
S是用来辅助context-to-query和query-to-context attention系数的生成。
context-to-query Attention:
简单来说,就是用query中所有的加权和来表征context中的每一个词向量,这个加权的系数就是通过对上述生成的
S
S
S矩阵中的每一个行来做一个softmax归一化得到。这样得到的表征
U
∗
U^{*}
U∗则是维度为2d长度为T的矩阵。
query-to-context Attention:
这个就是针对context中的每一个词,把它和query词语中相似性最大的取出来作为其权重,然后针对context中每一个词语的权重进行softmax生成归一化的权重,然后使用这个归一化的权重对context中的词向量进行加权求和,生成唯一的query-to-context Attention机制下的词向量,把这个词向量复制T次,同样生成了维度为2d长度为T的矩阵
H
∗
H^{*}
H∗。
接下来将生成的 H ∗ H^{*} H∗和 U ∗ U^{*} U∗以及原始的context表征 H H H一起输入函数 G = β ( H ∗ , U ∗ , H ) = [ h ; u ∗ ; h ⨀ u ∗ ; h ⨀ h ∗ ] G=\beta(H^*,U^*,H)=[h;u^*;h \bigodot u^*;h \bigodot h^*] G=β(H∗,U∗,H)=[h;u∗;h⨀u∗;h⨀h∗],很显然这个输出矩阵的维度是 8 d ∗ T 8d*T 8d∗T。其实这个 β \beta β函数可以有很多种的表现形式,这里面例子给出的是最简单的直接拼接的方式,同时还可以尝试multi-layer perceptron 等方式。上述生成的矩阵 G G G在原文中被描述为:“ encodes the query-aware representations of context words”。
接下来生成的矩阵G被输入到双向LSTM之中,这个在原文中被称之为“Modeling layer”,目的是“captures the interaction among the context words conditioned on the query”。生成的M矩阵维度为 2 d ∗ T 2d*T 2d∗T。
3 输出模块
输出模块是一个多分类问题,相当于每一个位置是正确位置的概率,首先预测的是开始下标的位置:
p
s
t
a
r
t
=
s
o
f
t
m
a
x
(
W
p
s
t
a
r
t
T
[
G
;
M
]
)
p^{start}=softmax(W^T_{p_{start}}[G;M])
pstart=softmax(WpstartT[G;M]),其中
W
p
s
t
a
r
t
T
W^T_{p_{start}}
WpstartT是一个
10
d
10d
10d的向量,随着模型一起训练。
接下来首先把
M
M
M输入到另一个双向LSTM之中,得到一个新的用于预测结束位置下标的矩阵
M
2
M^2
M2,该矩阵的维度同样为
2
d
∗
T
2d*T
2d∗T,结束下标的位置为:
p
e
n
d
=
s
o
f
t
m
a
x
(
W
p
e
n
d
T
[
G
;
M
2
]
)
p^{end}=softmax(W^T_{p_{end}}[G;M^2])
pend=softmax(WpendT[G;M2]),同样的
W
p
e
n
d
T
W^T_{p_{end}}
WpendT是一个
10
d
10d
10d的向量,随着模型一起训练。
最终模型的损失函数如下:
L
(
θ
)
=
−
1
N
∑
i
N
l
o
g
(
p
x
i
s
t
a
r
t
)
+
l
o
g
(
p
x
i
e
n
d
)
L(\theta)=-\frac{1}{N}\sum_{i}^N log(p_{x_i}^{start})+log(p_{x_i}^{end})
L(θ)=−N1∑iNlog(pxistart)+log(pxiend)
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。