当前位置:   article > 正文

事件抽取详细入门概述(Event Extraction) & ACE2005数据集_ace事件抽取数据集

ace事件抽取数据集

事件抽取的定义

  • 事件

作为信息的一种表现形式,其定义为特定的人、物在特定时间和特定地点相互作用的客观事实,一般来说是句子级的。

  • 组成元素

    组成事件的各元素包括: 触发词、事件类型、论元及论元角色。

    事件触发词(event trigger):表示事件发生的核心词,多为动词或名词;
    事件类型:ACE2005 定义了8种事件类型和33种子类型。其中,大多数事件抽取均采用33 种事件类型。事件识别是基于词的34 类(33类事件类型+None) 多元分类任务,角色分类是基于词对的36 类(35类角色类型+None) 多元分类任务;
    事件论元(event argument):事件的参与者,主要由实体、值、时间组成。值是一种非实体的事件参与者,例如工作岗位 ;
    论元角色:事件论元在事件中充当的角色。共有35类角色,例如,攻击者 、受害者等。

理解定义

事件抽取并不是从非结构化文本中抽取未知事件,而是在已经定义好了34类事件后
从文本中寻找事件触发词(event trigger),以匹配事件
并将事先定义好的事件模板中的每个角色(论元角色),找到它对应的实体。

比如 小明 攻击了 小红
通过早就定义好的模板

攻击事件
包括 攻击者 & 被攻击者 & 触发词(攻击,击打,等)

通过 攻击 判定句子中含有攻击事件 :事件匹配
再将 小明 对应到 攻击者
小红 对应到 被攻击者 : 事件论元(event argument)匹配

数据集

ACE2005数据集

事件是由ACE定义的事件,那么数据集自然也要采用ACE的事件抽取数据集-ACE2005数据集

ACE2005数据库解决了3项基本的任务——实体识别、值、事件表达式、关系和事件

结构如下:

1P: data subject to first pass (complete) annotation
1P: 须先通过(完整)注释的资料
DUAL: data also subject to dual first pass (complete) annotation
DUAL:数据也服从对偶第一遍(完整)注释
ADJ: data also subject to discrepancy resolution/adjudication
ADJ: 资料也有经争议解决/裁定
NORM: data also subject to TIMEX2 normalization
NORM: 数据也要服从TIMEX2标准化 
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8

简单来说,每份数据都要通过两种方式进行标注,即1p标注,和DUAL标注,两种标注结果相同的自然认为标注正确,标注不同的通过仲裁裁定后,形成ADJ资料。

ACE2005EDC数据集

EDC代表事件抽取

ACE2005EDC数据集,对一个含有事件文本中的事件类型,事件触发词,事件论元在事件中扮演的角色都进行了标注。

包含英文,中文,阿拉伯语三种语言

除了ACE2005EDC数据集,我还没有找到含有标注了事件论元在事件中扮演的角色的数据集。

数据集的获取

ACE2005数据集是收费的,可在LDC联盟的官网上进行购买
ACE2005数据集获取的详细过程

LDC联盟-ACE2005

购买流程颇为复杂,首先要以组织的名义加入LDC,收取会员费

  • 非营利组织:2400美元/年
  • 营利组织:24000美元/年

LDC账号中拥有组织管理员,可将其他LDC账号拉入组织,共享获取数据集的权利

成为会员后才能购买各种数据集,当年会员对当年的数据集免费使用,不是会员后依然有权使用当年的数据集,其他数据集各自有报价。
ACE2005数据集 报价4000美元。

事件抽取方法

(阐述一下大体思路,详见下方知乎链接)

通常来说,事件抽取的基本任务都可以用四个子任务分解:

事件触发词检测 Event (trigger) detection

事件触发词分类 Event trigger typing 

事件论元识别 Event Argument Identification

事件论元角色识别 Event Argument Role Identification
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7

注:Event Argument有不同翻译,本文翻译为事件论元

在2015年以及之前,对事件抽取(Event Extraction, EE)的工作思路主要聚焦于模式匹配或者统计机器学习方法。

基于模式匹配的方法在特定领域能取得较好的性能,但是移植性较差;
基于统计学习的方法通常能有较好的移植性,但是严重依赖于已标注的数据。

从2015年开始,有研究者尝试使用CNN/RNN(神经网络)来提取Event Mention中的语义,比较典型的有DMCNN与JRNN等模型,其评估结果比早期的一些Structure-Based Method有显著提升。使用DNN来捕捉语义的另一个好处是使用了蕴含特征更加丰富的词向量,因此事件抽取的结果不再很大程度上依赖于人工定义的局部/全局特征。

Pipelined Approach & Joint Approach

将所有子任务独立地视为分类问题的思想被称为 Pipelined Approach ,基于此类思想的方法会建立多个不同的模型(或者用同一个稍作修改的模型按顺序应用到每个子问题)来依次求解
这种方法的最大缺陷是Error Propagation:从直观上考虑,如果在第一步Triggers识别中就出现了错误,之后对Arguments的识别准确度会更低。尽管如此,使用Pipelined Approach划分问题的方式能够简化整个事件抽取任务,因此被广泛使用。Pipeline方法中比较经典的有15年提出的动态多池化卷积模型(DMCNN)。

另一种相对应的研究模式是尝试建立一个同时提取以上所有信息的模型,也即 Joint Approach 。这类方法目标是只建立一个模型,同时用于Triggers与Arguments的提取,此类方法的一大好处在于能够产生Triggers与Arguments之间的双向信息流交互(Pipeline中信息只能从Triggers流向Arguments),在DNN方法应用之前,表现最好的是[Li et. al.]提出的结构化感知机模型,16年由[Nguyen et. al]提出了JRNN模型,将RNN应用到了事件抽取任务中。

数据集的缺失

尽管研究者在模型设计上花费了很大的心思,然而横亘在事件抽取任务之上的还有一个不可忽视的问题:即 数据集的缺失
目前事件抽取最为广泛使用的数据集是[ACE, 2005]。以ACE数据集为例,其整体数据仅来源于599个英文文档,定义的33个事件类型中有超过60%的类型样本数不超过100个,甚至有3个事件类型的样本没有超过10个,数据稀疏的根本原因在于使用人力手动标注文本的时间与花费成本很高。因此,逐渐有学者开始研究对数据集的增强,如使用外部的语义知识框架进行数据的自动标注,使用半监督学习来对信息进行聚类标注,这些方法着眼于对数据的自动标注,以提高模型的泛化性能。更为直接地,另外一部分学者尝试直接从建模角度克服数据稀疏的问题,例如使用Zero-Shot Transfer Learning方式来提升模型对于未知事件类型的预测效果。

关于事件抽取最近的进展以及比较经典的模型方法,这里给一个回答的比较好的知乎链接
张成成成成的知乎回答

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/羊村懒王/article/detail/358451
推荐阅读
相关标签
  

闽ICP备14008679号