赞
踩
写在前面
本篇文章原文来源于2111.03212.pdf (arxiv.org),本博客只对于该文章进行简单的概况学习,同时帮助我进行相关的方向理解。
事件抽取是NLP方向的一个领域,其中可能还会用到图神经网络的相关知识,对于刚入门的小白来说,入门我觉得有些困难,因为我就是这个小白。
目录
( 1 )从技术角度系统地回顾了事件抽取的相关文献,包括封闭域和开放域的事件抽取。在每一小节中,作者对代表性研究的模型、技术、事件级别、数据集和应用领域进行回顾,并按年度汇总在相应的表格中。
( 2 )作者试图提供一个中等复杂度的概述。回避了对个体研究细节的探讨。重点讨论了代表性著作的共同特点、应用领域、优缺点等。
( 3 )总结了阻碍事件抽取泛化和工业应用的共性问题和挑战。
根据不同的分类方法,在这篇文章中作者认为,事件抽取包括封闭域事件抽取和开放域事件抽取。前者旨在发现具有特定类型的事件触发词及其论元,后者则专注于发现新事件或追踪已知事件的状态变化。
从使用的技术角度分类,现有的方法可以分为模式匹配、机器学习、深度学习和半监督学习方法。
从训练模型的角度分类,现有的方法可以分为模式匹配、流水线训练和联合训练等方法。
从是否需要大量专家知识的角度分类,现有方法可分为知识驱动、数据驱动和混合方法。知识驱动的方法通常需要专家知识来设计精巧的图案。数据驱动方法主要通过统计学或深度学习方法从大数据中挖掘知识。混合方法结合了上述两种方法的思路。
从执行事件抽取任务的语料层面分类可以分为句子层面、文档层面和跨文档层面。
与封闭域事件抽取不同,它侧重于从文本中检测新的或突发的事件。因此不存在预定义的事件类型,事件模式归纳是开放域事件抽取的关键子任务。
从使用的技术分类,可以分为基于贝叶斯的,基于聚类的,基于句法分析的,基于词典的,基于半监督的、基于远程监督的,基于对抗域适应的。
从任务目标的角度分类,可以分为新事件检测、事件生成和事件跟踪。
首先我先说下个人的理解,我觉得事件抽取的过程主要包括:触发词识别、事件类型分类、论元识别和论元角色分类。
事件抽取涉及到命名实体识别( NER )和关系抽取( RE ),且多依赖于这些任务的结果。
下图为事件抽取基本原理->应用关系图:
在这几天查阅关于事件抽取方向的论文以及博客我发现了ACE 2005经常出现,可见这个数据集的重要性!!!所以现在很多数据集都以这个数据集作为参考标准(个人猜测hhh)。
一个事件经常被描述为状态的变化,表示在特定时间和特定地点发生的事情的特定发生,涉及一个或多个参与者。它可以帮助回答" 5W1H "问题,即"谁","何时","何地","是什么","为什么"和"怎么样"。当然这就是遵循了ACE 2005数据集标准。
ACE通过以下五个来描述事件抽取:
1.事件提及:事件提及通常是描述一个事件的短语或句子,其中包括一个触发词和相应的论元。
2.事件触发语:通常是一个动词或一个名词,它最清楚地表达了事件的核心意义。
3.事件类型:是指事件所对应的类别。在大多数情况下,事件类型是由人工预定义的,通过事件触发器进行分类。例如,ACE 2005事件语料库中预定义的事件类型有8种,子类型有33种。而在开放域事件抽取中,它并不是显式地预定义的,通常可以用事件触发器来表示。
4.事件论元:事件论元是事件的主要属性。它们通常是描述事件状态变化的实体指称,涉及谁、什么、何时、何地、如何等。
5.论元角色:论元角色是事件论元在事件论元与触发器的关系中所表现出的功能或位置。
本篇论文是按上面五部分进行定义的,通过这几天的学习,我认为最重要的还是触发词、论元角色、以及事件类型。
下列句子(看下面第一个图)进行了相关的仔细解读,句子S1中涉及的事件类型有两种:"Die"和"Attach",分别由"Die"和"Attach"触发。对于Die事件,"巴格达"、"摄影师"和"美国坦克"分别是其相应角色的论据:地点、受害者和工具。对于Attach事件,"巴格达"、"摄影师"、"美国坦克"和"巴勒斯坦饭店"分别是其相应角色的论据,分别代表地点、受害者、工具和目标。这是一个有三个论元共享的稍微复杂的例子,比一个句子中有一个事件类型的简单情况更具有挑战性。
一个句子中两个事件的例子:死亡和攻击。上层弧连接事件触发其对应的论元,论元角色在弧上。下边展示了句法分析器的结果。
事件抽取语料库由具有领域知识的专业人士或专家标注,用于训练或评估模型。
以下是本篇论文作者总结的一些比较常用的语料库。
嘿嘿,当然最著名的还是ACE 2005事件语料库,它包含包含8个事件类型和33个子类型,在599篇文献(中文文献633篇)中约有6000个标注实例,它的重要性我相信在后面的学习中我会很快体验到。
Time Bank语料库中的文本涵盖了新闻领域的多种媒体来源。它是一个金标准的人工标注语料库,遵循TimeML (时间标记语言)标注方案。
其他语料库的简介我就不一一赘述了。。。。感兴趣的可以查看本篇论文进行相关的了解。
对于封闭域事件抽取,本文介绍的评价指标有三个:精确率、召回率和F1分数,公式如下所示:
相信对于机器学习有过初步了解的同学,应该对这个概念非常清楚了,这里就不再进行详细解读了。
对于开放域的事件抽取,经常通过聚类算法进行抽取,所以本文介绍了一种叫做归一化的点互信息( nPMI )的方法:
W为语料库中的总词数,f( x )和f ( y )分别为x和y在语料库中的频数;f( x , y)是词对( x , y)在语料库中的出现频率。还有其他变体,如文献中使用的cPMI (语料水平显著性PMI)和。
本文是按照技术角度分类,分为模式匹配、机器学习、深度学习和半监督学习方法进行介绍。
这个方法十分依赖于人工标注特征进行学习,依赖于特定领域的事件模板,最早的事件抽取方法主要是基于语法树或正则表达式。
该方法典型的特征体现在两个方面:( 1 )利用词汇特征,例如,词性标记( POS ),实体信息和词法特征(令牌、引理等。);( 2 )利用通常由具有领域知识的专家设计的精巧事件模式。
文章提到的一个典型的工作是Ellen于1993年开发的Auto Slog系统。它首先借助概念句分析器定义了13种语言模式。这些语言模式被用于自动构建特定领域的概念词典。然后AutoSlog使用触发词词典检测潜在事件。最后,它将事件模式和语言特征(如句法分析器生成的词性标签( POS ) )关联起来,以组装论元及其对应的角色。作者将过程总结在下图中。
在这之后该方法在生物医学、通用信息抽取、金融和经济[等爆炸式增长。详细内容可以见本篇论文。
下图展示了该方法的主要过程,可以简单了解一下。
先前基于机器学习的事件抽取方法中报告的特征可以分为词汇特征和上下文特征。
词汇特征包括词性标签( POS )、实体信息和词形特征(例如,令牌、引理等) 。
上下文特征包括局部信息(句子级别)、全局信息(文档级别)和外部词典。这些特征是互补的,并且已经有各种研究将来自相关文件的全球证据与地方决策相结合。
在文中针对句子级别和文档级别的事件抽取的作者介绍了很多种方法,感兴趣的可以简单了解下。
考虑到事件抽取任务的复杂性,最前沿的研究者将任务分为四个子任务:事件触发词识别、事件类型分类、论元检测和角色分类。有许多研究以流水线的方式来训练分类器,其优点是前一个分类器可以为后面的分类器提供信息。
这里介绍了很多常用的机器学习方法如CNN、RNN & LSTM、Attention & Transformer、GCN、Bert。。。。。
特征工程是传统事件抽取方法的主要挑战性问题。而传统的机器学习方法在学习深层或复杂的非线性关系时存在局限性。基于深度学习的方法由于其两个显著特点可以缓解这些不足。首先,输入的嵌入式表示适用于大数据。其次,特定的深层架构可以更好地捕捉各种更复杂的非线性特征。深度学习方法可以学习知识的分布式表示,例如语义特征,避免了特征工程。词嵌入、字符嵌入、位置嵌入、实体类型嵌入、POS标签嵌入、实体类型嵌入、词距离、相对位置、路径嵌入等是使用最多的特征。
使用基于依赖的GCN网络来捕获局部上下文,并使用超图来建模全局上下文。此外,局部和全局上下文之间的细粒度交互通过一系列堆叠的超图聚合神经网络( HANN )层捕获。所提出的框架的概述下图所示。
以CNN为基础。与传统的机器学习方法相比,CNN能够很好地捕获句子中的局部语义特征,克服复杂的特征工程。然而,CNN在考虑多事件句子时可能会遗漏有价值的事实,因为它不能捕获长期信息使用动态多池化卷积神经网络( DMCNN )自动提取词汇级和句子级特征。使用CNN来捕获统一的线性句子表示,包括语义嵌入,位置嵌入和依赖路径嵌入。
RNN和LSTM架构善于捕获长短期记忆信息,适用于序列标注和长依赖文本。而事件抽取也可以看作是一个序列标注任务。
Attention & Transformer方法,注意力机制允许深度学习模型通过为不同的嵌入分配不同的权重来学习最重要的信息而忽略噪声。根据注意力机制作用的对象,有词级别、句子级别、文档级别和通道级别的注意力。Transformer本质上是一种多头自注意力架构。
基于GCN方法,同一句子中存在多个事件,一个事件的论元跨越多个句子,或者文档级别的事件抽取都面临着一个挑战:长距离依赖。利用依赖结构的一种常见的解决方案是使用通用的依赖解析。以节点代表令牌、边代表有向句法弧的句法图卷积网络( GCNs )有助于缓解这一挑战。
基于Bert方法,Bert是一个双向Transformer架构模型,在海量语料上进行了训练,学习到了较好的基于token上下文的语义表示,并保留了丰富的文本信息。
除此之外还有基于问答的学习方法以及基于阅读理解的学习方法等等。。。。。。
半监督和远程监督方法,以自动产生更多的训练数据。半监督方法。半监督学习( SSL )通过同时利用无标签数据和有标签数据来帮助实现强泛化。
多模态特征学习架构由3个部分组成:生成器G、判别器D和分类器C,也是在这方法的基础上实现的具体图如下:
远程监督方法。远程监督是一种成功的范式,通过自动将大量事实数据库与文本对齐,为事件抽取系统收集训练数据
单事件抽取任务、整合不同技术和范式,我觉得就是把不同的方法进行交叉融合处理,最终进行相关功能的提升。
下图是开放域相关方法的总结:
最大的特点是不需要事先定义事件类型和模式。通常侧重于检测新的或突发的事件,事件文本生成,其他通用信息抽取。从技术角度将本文分为基于聚类、基于句法分析、基于词典、基于半监督远程监督为基础、基于贝叶斯、基于对抗域自适应和开放域事件文本生成的事件抽取。
社会事件是各种语义的独特集合体,相关的事件或演化往往具有内聚性。因此,基于密度的聚类算法可以用于新事件的检测和演化发现。例如,对于每个事件组,通过事件模式归纳,也可以用槽值模式构建事件模式。
以解析为主。句法分析结果被广泛用于增强开放域事件抽取任务。面向Twitter的开放域事件抽取和分类系统( TwiCal )。如下图所示,处理流程包括POS标签、时间分辨率、NER、事件标签、重要性排序和事件分类成分。
许多研究人员贡献了单词或短语的词典来辅助序列事件抽取任务。例如,提出了一个开放域的基于词典的事件抽取系统MONTEE,可以区分不同类型的模态。它可以说一个报道的事件发生了,没有发生过,或者是不确定的。这一结果对于避免提取不真实的事件是有价值的。
半监督和远程监督方法能够生成高质量的训练数据。Veyseh等通过微调预训练语言模型GPT - 2自动生成新的训练数据,探索了一种新的开放域事件检测方法。
大多数基于贝叶斯的开放域事件抽取模型假设句子或文档是关于事件类型、槽、实体和上下文特征的联合分布。例如,Wang等人提出了一个基于贝叶斯和生成对抗网络的开放事件抽取模型( AEM )。具体来说,使用狄利克雷先验和生成器来捕获潜在事件的模式。相比之下,判别器用于区分由潜在事件重构的文档和原始输入文档。与其他基于GAN的文本生成方法捕获生成的文本序列不同,AEM中的生成器学习事件分布和事件相关词分布之间的投影函数;因此,它捕捉到了与事件相关的模式。
对抗域适应( ADA )框架最初由Ganin和Lempitsky提出,并被广泛应用于多个NLP任务中。Naik和Rose 利用对抗域适应( ADA )框架来识别事件触发词。该框架将事件触发词识别任务视为一个令牌分类问题。训练一个表示学习器来生成令牌级别的表示,这些表示对触发器识别具有预测性,但对领域预测没有预测性,使其更具有领域不变性。
自动故事生成( Automated Story Generation,ASG )一直是人们感兴趣的研究问题和开放域事件抽取子任务。Fu等人完成了一个以实体链为骨架的开放域事件文本生成任务。为了构建该数据集,提出了一个包含编码器、检索器和解码器的wiki增广生成器框架。编码器将实体链编码成隐藏表示,而解码器从这些隐藏表示中解码并生成相关的故事。检索器负责收集可靠的信息,以增强生成文本的可读性。
1.数据集的不足
2.文档级和语料库级的事件抽取,不能局限在一个句子,而要从全文出发。
3.跨语言,对于需要迁移学习。
4.事件共指,存在一定的事件冗余。
5.需要一些新的技术手段进行相关的改进。
通过该篇综述的学习,对于事件抽取会有简单的理解和帮助,对于相关知识学习会有一定作用,当然行则致远,道阻且长,对于NLP的学习还有很长的路要走,研0小白继续加油!!!
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。