赞
踩
作为信息的一种表现形式,其定义为特定的人、物在特定时间和特定地点相互作用的客观事实,一般来说是句子级的。在TDT ( Topic Detection Tracking) 中,事件是指关于某一主题的一组相关描述,这个主题可以是由分类或聚类形成的。
如下例句:在Baghdad,当一个美国坦克对着 Palestine 酒店开火时一个摄影师死去了。
图1 Examples of ACE events
事件抽取技术是从非结构化信息中抽取出用户感兴趣的事件,并以结构化呈现给用户。事件抽取任务可分解为4个子任务: 触发词识别、事件类型分类、论元识别和角色分类任务。其中,触发词识别和事件类型分类可合并成事件识别任务。事件识别判断句子中的每个单词归属的事件类型,是一个基于单词的多分类任务。论元识别和角色分类可合并成论元角色分类任务。角色分类任务则是一个基于词对的多分类任务,判断句子中任意一对触发词和实体之间的角色关系。
事件抽取任务总体可以分为两个大类:元事件抽取和主题事件抽取。元事件表示一个动作的发生或状态的变化,往往由动词驱动,也可以由能表示动作的名词等其他词性的词来触发,它包括参与该动作行为的主要成分 ( 如时间、地点、人物等) 。主题事件包括一类核心事件或活动以及所有与之直接相关的事件和活动,可以由多个元事件片段组成。当前主要是面对元事件抽取,关于主题事件抽取的研究较少。
3) 效果评测
在事件抽取应用中通常采用两种不同的效果评价方法:基于召回率 (记为 R) 准确率 (记为 P) 的微平均 (记为F) 值法,或基于丢失率 (记为 L) 误报率 (记为 M) 的错误识别代价 (记为 C) 法。其中,
Cmiss为一 次 丢 失 的 代 价, Cfa为一次误报的代价,Ltar为系统作出肯定判断的先验概率, 通常根据具体应用设定为常值。上述公式表明,两种效果测评方法之间不存在简单的逆反关系,因此在分析不同评价方法下的两种不同算法的效果时应进行适当的换算。
微平均值法一般多用于单一事件抽取任务中,如: 突发事件、门户网站、金融资讯的事件抽取。对于话题追踪任务而言,相对于正确率,人们对系统作出的错误判断往往更为敏感,这些错误包括:本应为是的判断为否 (丢失) ,本应为否的判断为是 (误报) ,因此常采用错误识别代价作为效果评价方法。另外,事件抽取的各种算法在实际应用中,除考虑其识别结果的正确率外,还应该考虑算法的复杂程度及其可实现性。一些抽取效果好的算法往
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。