当前位置:   article > 正文

NLP--事件抽取模型对比_ddparser 依存句法

ddparser 依存句法

EventTriplesExtraction

说明:EventTriplesExtraction 基于依存句法与语义角色标注的事件三元组抽取,尝试过使用关键词,实体之间的关联关系,并使用textgrapher的方式进行展示,但以词作为文本信息单元表示这种效果不是特别好,所以本项目尝试从事件三元组的方式出发,对文本进行表示

目的:如何以清晰,简介的方式对一个文本信息进行有效表示

测试数据(三种方法皆使用同一数据作为对比):

方法一:基于百度DDParser依存句法分析的事件三元组抽取

测试结果:

方法二:基于词性模板规则的事件三元组抽取

测试结果:

方法三:基于ltp依存句法分析和语义角色标注的事件三元组抽取

测试结果:

补:LTP的语义角色标注功能

sentence:中国是一个自由、和平的国家

结果:

分词结果:['中国', '是', '一个', '自由', '、', '和平', '的', '国家']

词性标注结果:['ns', 'v', 'm', 'a', 'wp', 'a', 'u', 'n']

依存句法分析结果:[{}, {'SBV': [0], 'VOB': [7]}, {}, {'COO': [5], 'RAD': [6]}, {}, {'WP': [4]}, {}, {'ATT': [2, 3]}]

角色标注结果:{1: {'A0': ['A0', 0, 0], 'A1': ['A1', 2, 7]}}

整合结果:[['SBV', '中国', 0, 'ns', '是', 1, 'v'], ['HED', '是', 1, 'v', 'Root', -1, 'n'], ['ATT', '一个', 2, 'm', '国家', 7, 'n'], ['ATT', '自由', 3, 'a', '国家', 7, 'n'], ['WP', '、', 4, 'wp', '和平', 5, 'a'], ['COO', '和平', 5, 'a', '自由', 3, 'a'], ['RAD', '的', 6, 'u', '自由', 3, 'a'], ['VOB', '国家', 7, 'n', '是', 1, 'v']]

总结

本实验中使用了基于ltp句法分析和语义角色标注、基于百度DDParser以及基于词性模板规则的事件三元组抽取方法,并给了实验结果。可以得到以下结论:

  1. LTP在DDParser之外,还提供了语义角色标注的功能,可以用于事件三元组抽取的有效补充
  2. LTP速度比DDParser要快
  3. 基于词性模板规则的事件三元组抽取速度最快,但效果取决于分词,词性标注功能
  4. 基于词性模板规则,可以得到语义更长的三元组元素信息
     

Doc2EDAG

论文“Doc2EDAG:中国金融事件提取的端到端文档级框架”的源代码, 在 EMNLP 2019 中

说明:文档级事件提取(DEE)在许多应用程序中是迫切需要的,但面临两个主要挑战:

  • 参数分散:事件记录的参数始终分散在文档的多个句子中
  • 多事件:具有分散参数的多个事件记录经常共存于一个文档中

为了应对上述挑战,为DEE提出了一个真正的端到端模型Doc2EDAG,它可以将文档作为输入,并直接发出具有多个条目的事件表

一般来说,端到端DEE需要共同完成以下任务:

  • 实体提取
  • 事件触发
  • 事件表填充

Doc2EDAG基于实体的有向无环图(EDAG),不是直接填充表,而是以自回归方式生成EDAG。这样,硬表填充任务被分解为几个更容易处理的路径扩展子任务。

下图展示了Doc2EDAG的整体架构

数据

利用2008年至2018年中国上市公司的财务公告,并通过远程监督建立DEE的大规模数据集

train.json(训练数据部分展示)

dev.json(验证数据部分展示)

test.json(测试数据部分展示)

训练结果(部分)

评估结果(部分)

总结

本实验的主要目标是用每个角色的正确参数填充事件表,通过直接比较每种事件类型的预测事件表和真实事件表来评估DEE,因此本实验的结果主要侧重于事件表填充的精确度,而对于实体提取以及事件触发几乎没有提及,所以可能并不适合本项目

总结

以目前结果来看,以上两种实验结果均不如科大讯飞的实验结果清晰直观。

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/小丑西瓜9/article/detail/365872
推荐阅读
相关标签
  

闽ICP备14008679号