赞
踩
这篇文章是发表在2017年ACL上的,和KBLSTM那篇同时期。属于阅读理解当中完形填空类的问题,针对稀少实体进行预测任务。在提出的层级lstm模型上取得了很好的效果。
分以下四部分介绍:
语料构建
首先从html文本当中解析网页数据,并且抽取出他们的内容。在内容当中涉及到的含有超链接的实体(Wikipedia)会被标记,并且用一个特别的符号blank表示,得到训练语料。实体的链接定义形成实体字典。
对于实体的候选集合确定,可以有几种方法。
提出了两种模型:
将一篇文档D根据标记“blank”分成若干个片段:
Le表示e这个实体对应的Definition:
首先找到实体词对应的解释,把这个解释通过一个循环神经网络得到他的表示
d
e
d_e
de,见图黄色部分。得到表示之后,把当前句子当中的blank替换成该表示然后计算一个新的隐状态,
h
i
e
h_i^e
hie,接下来计算一个概率函数即可。通过增加
d
e
d_e
de到P中,可以传递梯度到lexical encoder,两个modules可以共同学习。
考虑到上一个模型,它是对每一篇文档去独立进行的,但是在文档之间可能会存在有用的信息帮助实体的预测。因此提出一种层次化的模型结构。
对每一篇文档中的每一个片段用上述的模型进行编码(蓝色部分)。得到
h
i
e
h_i^e
hie,i表示第i篇文档,e表示候选中的某一个实体。为了得到这个文档的表示,我们简单地进行一个平均(绿色部分),然而也可以用一些attention的方法,但是复杂度较高。
得到所有的文档的表示之后,通过一个循环神经网络取最后一个状态
r
i
r_i
ri,加入到最后的概率计算当中。
内容窗口被定义成包含blank的句子。当然也可以增加前一句话或者后一句话。对于字典的解释可以取第一句话,也可以增加后一句话。但是作者进行实验发现这样收益不是很大。
为了训练模型,使用正确的实体作为正样本,其他所有的实体作为负样本。比只使用剩下的候选集当中的一个子集更有效。这样负样本不会太多吗?
作者提出了几个基线模型,第1个是随机模型,随机的选择实体,第2个是频率模型,频率最多的作为预测答案。第3个是通过使用循环神经网络去编码,但是不引入外部知识。第4个是使用TFIDF或者平均词向量特征,并引入外部知识。
实验结果如下:
1、只使用上下文的知识,给定的效果较差。通过引入外部知识+深度学习可以提高模型的效果。
2、从引入外部知识和不引入外部知识的实验结果可以看出,通过增加外部知识,即使不用深度学习,效果也只是略微差一点,39.6%->35.9%.
3、从上面这个图可以看出,随着实体频率的增加,没有外部知识的模型,效果显著提升,但是有外部知识的模型效果基本是保持一致。说明增加外部知识,即使实体在语料库当中出现的频率特别的少,所能达到的准确率也比较高。
这篇文章主要是通过引入了字典解释,对阅读理解当中的完形填空任务进行实体预测。当然也可以引入一些实体之间的关系,或者其他类型的关系。
另外提出了一种层级结构更好的捕获文档与文档之间的信息。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。