赞
踩
没有统一的定义,在知识图谱领域,自动内容抽取(ACE)评测会议中对事件的定义如下:
研究:如何从描述事件信息的文本中抽取出用户感兴趣的事件信息并以结构化的形式呈现出来。重点在从非结构化文本中进行事件抽取。
过程:首先从非结构文本中识别出事件及其类型,然后抽取出该事件所涉及的事件元素。
相关概念:
按照事件类别方式不同,可分为:
基于模式匹配的事件抽取方法:对某种类别事件的识别和抽取是在某一些模式的指导下进行的,匹配的过程就是事件识别和事件抽取的过程。
过程:模式获取 和 模式匹配。模式准确性尤为重要。
模式的获取完全基于人工标注的语料,学习效果高度依赖人工标注效果。
步骤:
典型系统:AutoSlog、PALKA模式抽取系统
不需要对语料完全标注,只需要人工对语料进行一定的预分类或者制定少量种子模式,由机器根据预分类语料或者种子模式自动学习事件模式。
步骤:
典型系统:AutoSlog-TS系统、ExDisco系统、GenPAM系统、NEXUS系统
根据所需监督数据不同,可分为:有监督事件抽取方法 和 弱监督事件抽取方法
步骤:
需显式地将 事件实例 =》特征向量(如何提取具有区分性的特征)
步骤:
典型方法:2006年,Ahn提出的一个两阶段的多分类问题。
事件触发词的特征:
事件元素分类的特征:
不足:
步骤:
典型方法:2015,动态多池化卷积神经模型,该方法将事件抽取当作一个二阶段的多分类问题,第一阶段为触发词抽取,第二阶段为元素抽取(更为复杂,以此为例进行说明)。
模型训练:定义训练的目标函数,然后利用随机梯度下降等训练方法优化模型参数,进而训练整个网络的参数。为防止过拟合,可使用Adadelta等更新规则。
其他方法:联合循环神经网络进行事件抽取
基本框架:
核心思想:首先利用小部分标记数据训练抽取模型,然后利用训练好的模型对未标注数据进行分类,从中选取高置信度的结果加入到训练数据中,再次训练分类器,上述过程反复迭代进而完成标注数据的自动扩充和事件的自动抽取。
现状:基于弱监督的事件抽取方法还处于起步阶段,迫切需要自动生成大规模的、高质量的标注数据法人方法来提升性能。
基本框架:
核心思想:首先提出回标的假设规则(即 Distant Supervison),然后利用结构化事件知识去非结构化文本中进行回标,将回标的文本当作标注样本,然后利用标注的样本训练模型,进而完成事件的抽取。
代表方法:2017年,Chen提出的事件语料的大规模自动生成方法,其框架如下图所示。
不足:该方法无法自动生成篇章级标注数据并进行篇章级事件抽取(具有重要价值和现实意义)。
开放域事件抽取主要基于无监督的方法,该方法主要基于分布假设(Distributional Hypothesis)理论,将候选词的上下文作为表征事件语义的特征。按照所用方法的不同,可分为 基于内容特征的事件抽取方法 和 基于异常检测的事件抽取方法。
无监督事件抽取的关键:寻找更好的文本表示方式、文本相似度衡量指标
难以应用到其他NLP任务中。
步骤:
代表方法:1998年,Yang等提出 组平均聚类方法。
不足:可以发现新的事件,但其发现的新事件往往是相似模板的聚类,难以规则化,很难被用于构建知识库,需要将其同现有知识库的事件框架进行对齐,或者通过人工方式来给每个聚类事件簇赋予语义信息。
基本假设:某个重大事件的发生会导致新闻媒体或社交网络上涌现出大量的相关报道或讨论;反之关于某一主题的报道或讨论突然增多则暗示着某一重大事件的发生。
通用方法:对文档整体的异常情况进行分析 或 对每个词频进行异常检测
核心任务:以事件为基本语义单元,实现事件逻辑关系的深层检测和抽取。
现状:目前没有清晰统一的框架和定义,比较公认的有事件共指关系、事件因果关系、子事件关系和事件时序关系等。
定义:当两个事件指称项指向真实世界的同一个目标事件,则认为这两个事件具有共指关系。有助于在多源数据中发现相同事件,对事件信息的不全和验证有积极作用。
核心问题:计算两个指称项之间的相似度,一般会利用两类特征:
数据集:ECB(Event Coreference Bank)
定义:因果关系反映了事件间先后相继、由因及果的一种关系。对文本的深层语义理解有重要意义,有助于掌握事件演变的过程,从而为决策者提供重要的决策信息。
难点:
定义:子事件关系反映了事件之间的粒度和包含关系,例如:“地震事件”一般包含“伤亡”、“救援”、“捐款”和“重建”等子事件。eg:连续报道、专题报道。
典型方法:基于先验的增量子事件学习模型、基于概率的贝叶斯网络结构学习方法、端到端的上下文相关的层次LSTM模型。
定义:事件时序关系是指在时间上的先后顺序。可以辅助其他事件关系的发现。
目前,绝大多数事件时序关系的研究都集中在英文文本上,最广泛应用的语料是TimeBank;主流方法是基于机器学习方法的事件时序关系抽取,该类方法一般将事件时序关系识别转化为一个多分类问题。
语料库:
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。