当前位置:   article > 正文

World Knowledge for Reading Comprehension: Rare Entity Prediction with Hierarchical LSTMs_world knowledge for reading comprehension:rare ent

world knowledge for reading comprehension:rare entity prediction with

《World Knowledge for Reading Comprehension: Rare Entity Prediction with Hierarchical LSTMs Using External Descriptions》

这篇文章是发表在2017年ACL上的,和KBLSTM那篇同时期。属于阅读理解当中完形填空类的问题,针对稀少实体进行预测任务。在提出的层级lstm模型上取得了很好的效果。

分以下四部分介绍:

  • Motivation
  • Model
  • Experiment
  • Discussion

1、Motivation

  • 想法是,在人们去进行阅读理解的时候,会带有特定的背景知识,我们希望在自动阅读理解系统当中也能达到同样的效果。
  • 针对阅读理解当中的实体预测,在CNN/Daily Mail数据集中,大部分问题能够被解决,但是还有一些残留的问题。比如实体出现的次数过少,模型往往预测称频率大的实体;由于实体匿名化,导致实体之间的一些必要联系(知识)被忽略。
  • 针对这个问题引入外部知识,考虑带有解释的实体字典。下图是一个例子。
    在这里插入图片描述

2、Model

  • 输入是文档还有候选实体及其解释。
  • 输出是候选中每个实体对应的概率。

语料构建
首先从html文本当中解析网页数据,并且抽取出他们的内容。在内容当中涉及到的含有超链接的实体(Wikipedia)会被标记,并且用一个特别的符号blank表示,得到训练语料。实体的链接定义形成实体字典。

对于实体的候选集合确定,可以有几种方法。

  • 第1种方法是记录所有语料中的实体,这种方式过于复杂,计算量较大。
  • 第2种方法是针对当前的文档,提取当中的实体,形成当前的实体候选集。即每一篇文档都有一个实体候选集。

2.1 overview

提出了两种模型:

  • Double Encoder
  • Hierarchical Double Encoder——文档之间信息并不是独立的,考虑了层次间的交互。

2.2 Double Encoder

将一篇文档D根据标记“blank”分成若干个片段:在这里插入图片描述
Le表示e这个实体对应的Definition:
在这里插入图片描述

在这里插入图片描述
首先找到实体词对应的解释,把这个解释通过一个循环神经网络得到他的表示 d e d_e de,见图黄色部分。得到表示之后,把当前句子当中的blank替换成该表示然后计算一个新的隐状态, h i e h_i^e hie,接下来计算一个概率函数即可。通过增加 d e d_e de到P中,可以传递梯度到lexical encoder,两个modules可以共同学习。
在这里插入图片描述

2.3 Hierarchical Double Encoder

考虑到上一个模型,它是对每一篇文档去独立进行的,但是在文档之间可能会存在有用的信息帮助实体的预测。因此提出一种层次化的模型结构。
在这里插入图片描述
对每一篇文档中的每一个片段用上述的模型进行编码(蓝色部分)。得到 h i e h_i^e hie,i表示第i篇文档,e表示候选中的某一个实体。为了得到这个文档的表示,我们简单地进行一个平均(绿色部分),然而也可以用一些attention的方法,但是复杂度较高。

得到所有的文档的表示之后,通过一个循环神经网络取最后一个状态 r i r_i ri,加入到最后的概率计算当中。
在这里插入图片描述

3、Experiment

内容窗口被定义成包含blank的句子。当然也可以增加前一句话或者后一句话。对于字典的解释可以取第一句话,也可以增加后一句话。但是作者进行实验发现这样收益不是很大。

为了训练模型,使用正确的实体作为正样本,其他所有的实体作为负样本。比只使用剩下的候选集当中的一个子集更有效。这样负样本不会太多吗?

作者提出了几个基线模型,第1个是随机模型,随机的选择实体,第2个是频率模型,频率最多的作为预测答案。第3个是通过使用循环神经网络去编码,但是不引入外部知识。第4个是使用TFIDF或者平均词向量特征,并引入外部知识。

实验结果如下:
在这里插入图片描述
1、只使用上下文的知识,给定的效果较差。通过引入外部知识+深度学习可以提高模型的效果。

2、从引入外部知识和不引入外部知识的实验结果可以看出,通过增加外部知识,即使不用深度学习,效果也只是略微差一点,39.6%->35.9%.

在这里插入图片描述
3、从上面这个图可以看出,随着实体频率的增加,没有外部知识的模型,效果显著提升,但是有外部知识的模型效果基本是保持一致。说明增加外部知识,即使实体在语料库当中出现的频率特别的少,所能达到的准确率也比较高。

4、Discussion

这篇文章主要是通过引入了字典解释,对阅读理解当中的完形填空任务进行实体预测。当然也可以引入一些实体之间的关系,或者其他类型的关系。

另外提出了一种层级结构更好的捕获文档与文档之间的信息。

本文内容由网友自发贡献,转载请注明出处:【wpsshop博客】
推荐阅读
相关标签
  

闽ICP备14008679号