赞
踩
bi-directional attention
arXiv 2016.11.05
利用 multi-stage 信息对文章进行编码,同时尝试两个方向上的 attention 来提高 RC 性能。
BiDAF 文中分为六步
然后把 character embedding 和 word embedding 拼接起来,通过两层 Highway Network 处理后得到 passage 矩阵和 query 矩阵,再输入到后面的层次。
定义相似度矩阵
Context-to-query Attention (C2Q) 这个方向的 attention 需要确定对于每一个 passage 中的词, query 中哪个词与它最接近。将 query 中每个词与 passage 中的一个词计算相似度,然后经 softmax 归一化后,计算 query 向量加权和。结果作为对应于 passage 这个词的问题表示向量,最后得到矩阵
Query-to-context Attention (Q2C) 这个方向的 attention 需要确定对于每一个 query 中的词,哪一个 passage 中的词和它最相似,也就是对于回答比较重要。取每列最大值,然后将这些最大值经 softmax 归一化后,计算 passage 向量加权和。将这个向量平铺
最终将这三个矩阵按如下方法拼接起来:
训练目标采用
论文地址:https://arxiv.org/abs/1611.01603
数据地址:https://rajpurkar.github.io/SQuAD-explorer/
这种网络给原来的 FNN 加了 gate。原来的 FNN 是这样的
这种网络最大的优点是能够利用 SGD 训练更深的网络,在实验中,即使加到 100 层也能够有效训练。
文中采用新的 attention 机制,从实验效果来看确实提高了效果,在 development set 和 test set 上分别取得了 77.8% 和 78.1% 的 F-score。同时在 development set 上去掉 C2Q 与 去掉 Q2C 相比,分别下降了 12 和 10 个百分点,也就是说 C2Q 这个方向上的 attention 更为重要。
这篇文章中的 attention 计算后流动到下一层中,而不是像 Memory Networks 里面动态计算 attention。这么做一方面可以减少早期加权和造成的损失,另一方面也能够将之前错误 attention 的信息恢复。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。