赞
踩
机器阅读理解(machine comprehension,MC),即根据上下文段落回答问题,要求对上下文和问题之间的复杂交互进行建模。最近,注意力机制成功应用在MC上。特别是这些模型使用attention对context的部分内容进行专注,并简化成特定大小的向量,有时结合attention,或是构造uni-directional attention。本文介绍Bi-Directional Attention Flow (BIDAF),多阶段的多层次的处理,把文本表现成不同级别上的粒度,并使用bidirectional attention flow mechanism 获得没有摘要抽取的问题的文本表示。实验表示,模型在Stanford Question Answering Dataset (SQuAD) 和CNN/DailyMail cloze test获得最好的结果。
机器阅读理解machine comprehension (MC) 和问答系统question answering (QA)在NLP和CV获得很大的发展。系统在text和image上训练end-to-end模型,获得预期结果。促进进步的重要因素是neural attention的使用,允许系统专注context的部分内容(MC),或是图像的一部分(Visual QA),这和回答问题相似。之前和attention相关的工作有如下的特征:
本文介绍了Bi-Directional Attention Flow (BIDAF)网络,一个层次级多阶段架构,在不同粒度上对上下文段落的表示进行建模。BIDAF包括了字符级,词级和上下文词嵌入,并使用 bi-directional attention flow获得具有问题意识的上下文表示。我们的attention具有以下的改进:
模型包括6层:
1 Character Embedding Layer
字符嵌入层主要把每个词映射到高维向量空间。 x 1 , . . . , x T x_1, ..., x_T x1,...,xT和 q 1 , . . . , q J {q_1, ..., q_J} q1,...,qJ输入上下文段落和query的词语,每个词语使用CNN获得字符级的词嵌入。字符映射成向量,可以认为是CNN的1D输入,大小是CNN的输入通道的大小。CNN的输入进行max-pooled获得每个词的特定长度的向量。
2 Word Embedding Layer
把每个词映射到高维向量空间。使用训练好的向量,GloVe,获得每个词的固定词嵌入。
character和word的向量进行concatenation,输入到两层的highway网络,highway网络的输入时d维向量,也就是矩阵,即context输出 X ∈ R d ∗ T X \in R^{d*T} X∈Rd∗T和query输出 Q ∈ R d ∗ J Q \in R^{d*J} Q∈Rd∗J
3 Contextual Embedding Layer
在前两层的后面使用LSTM,获得词语之间的时间信息。LSTM使用双向,对两个LSTM的输出进行concatenation,从上下文词的向量 X X X获得 H ∈ R 2 d ∗ T H \in R^{2d*T} H∈R2d∗T,query的词向量 Q Q Q获得 U ∈ R 2 d ∗ J U \in R^{2d*J} U∈
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。