当前位置:   article > 正文

事件抽取综述_事件抽取的传统方法

事件抽取的传统方法

1  基本概念... 1

1.1  事件... 1

1.2 事件抽取... 1

2  主流技术分析... 2

2.1 元事件抽取... 2

2.1.1 基于模式匹配的元事件抽取... 3

2.1.2 基于机器学习的元事件抽取... 3

2.1.3 基于神经网络的抽取方法... 4

2.2 主题事件抽取... 8

2.2.1  基于事件框架的主题事件抽取... 8

2.2.2 基于本体的主题事件抽取... 9

3  中文事件抽取算法分析... 9

3.1 事件抽取算法效果分析... 10

3.2 算法时间复杂度分析... 12

3.3 目前前沿联合模型方法... 12

4 已知问题... 14

5 研究趋势... 15

参考文献... 15

 

1  基本概念

1.1  事件

1)  定义

作为信息的一种表现形式,其定义为特定的人、物在特定时间和特定地点相互作用的客观事实,一般来说是句子级的。在TDT ( Topic Detection Tracking) 中,事件是指关于某一主题的一组相关描述,这个主题可以是由分类或聚类形成的。

2) 组成元素

组成事件的各元素包括: 触发词、事件类型、论元及论元角色。

  • 事件触发词:表示事件发生的核心词,多为动词或名词;
  • 事件类型:ACE2005 定义了8种事件类型和33种子类型。其中,大多数事件抽取均采用33 种事件类型。事件识别是基于词的34 类(33类事件类型+None) 多元分类任务,角色分类是基于词对的36 类(35类角色类型+None) 多元分类任务;
  • 事件论元:事件的参与者,主要由实体、值、时间组成。值是一种非实体的事件参与者,例如工作岗位 ;
  • 论元角色:事件论元在事件中充当的角色。共有35类角色,例如,攻击者 、受害者等。

如下例句:在Baghdad,当一个美国坦克对着 Palestine 酒店开火时一个摄影师死去了。

图1 Examples of ACE events

1.2 事件抽取

1)  定义

事件抽取技术是从非结构化信息中抽取出用户感兴趣的事件,并以结构化呈现给用户。事件抽取任务可分解为4个子任务: 触发词识别、事件类型分类、论元识别和角色分类任务。其中,触发词识别和事件类型分类可合并成事件识别任务。事件识别判断句子中的每个单词归属的事件类型,是一个基于单词的多分类任务。论元识别和角色分类可合并成论元角色分类任务。角色分类任务则是一个基于词对的多分类任务,判断句子中任意一对触发词和实体之间的角色关系。

2)  分类

事件抽取任务总体可以分为两个大类:元事件抽取和主题事件抽取。元事件表示一个动作的发生或状态的变化,往往由动词驱动,也可以由能表示动作的名词等其他词性的词来触发,它包括参与该动作行为的主要成分 ( 如时间、地点、人物等) 。主题事件包括一类核心事件或活动以及所有与之直接相关的事件和活动,可以由多个元事件片段组成。当前主要是面对元事件抽取,关于主题事件抽取的研究较少。

3)  效果评测

在事件抽取应用中通常采用两种不同的效果评价方法:基于召回率 (记为 R) 准确率 (记为 P) 的微平均 (记为F) 值法,或基于丢失率 (记为 L) 误报率 (记为 M) 的错误识别代价 (记为 C) 法。其中,

F=2×PR/(P+R)

C=Cmiss×L×Ltar+Cfa×M×(1Ltar)

Cmiss为一 次 丢 失 的 代 价, Cfa为一次误报的代价,Ltar为系统作出肯定判断的先验概率, 通常根据具体应用设定为常值。上述公式表明,两种效果测评方法之间不存在简单的逆反关系,因此在分析不同评价方法下的两种不同算法的效果时应进行适当的换算。

微平均值法一般多用于单一事件抽取任务中,如: 突发事件、门户网站、金融资讯的事件抽取。对于话题追踪任务而言,相对于正确率,人们对系统作出的错误判断往往更为敏感,这些错误包括:本应为是的判断为否 (丢失) ,本应为否的判断为是 (误报) ,因此常采用错误识别代价作为效果评价方法。另外,事件抽取的各种算法在实际应用中,除考虑其识别结果的正确率外,还应该考虑算法的复杂程度及其可实现性。一些抽取效果好的算法往

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/不正经/article/detail/365878
推荐阅读
相关标签
  

闽ICP备14008679号