当前位置:   article > 正文

NLP自然语言处理入门_coae2016

coae2016

1. 信息抽取

信息抽取(Information Extraction,IE)旨在从大规模非结构或半结构的自然语言文本中抽取结构化信息。

主要任务: 命名实体识别、实体关系抽取、事件抽取、实体消歧。

2. 关系抽取

关系抽取(Relation Extracion,RE)是其中的重要子任务之一,主要目的是从文本中识别实体抽取实体之间的语义关系

3. 实体关系抽取

实体关系抽取是指从一个句子中抽取出关系三元组(entity1,relation,entity2),例如,‘’任正非在深圳创办了华为公司。‘’,其中任正非是实体1,华为是实体2,它们之间的关系是创办,那么抽取的三元组为(任正非,创办,华为)。

实体关系抽取解决了原始文本中目标实体之间的关系分类问题,它也是构建复杂知识库系统的重要步骤,比如文本摘要、自动问答、机器翻译、搜索引擎、知识图谱等。

主流的关系抽取技术 :有监督的学习方法、半监督的学习方、弱监督的学习方法和无监督的学习方法四种。
(1)有监督的学习方法将关系抽取任务当做分类问题,根据训练数据设计有效的特征,从而学习各种分类模型,然后使用训练好的分类器预测关系。该方法需要手工标记的训练语料,标注数据费时费力。有监督的实体关系抽取主要分为基于特征和基于核函数的方法。
(2)半监督的学习方法主要采用Bootstrapping进行实体关系抽取。是一个能利用较少的标注语料获取到置信度较高的多量的标注语料的反复迭代的过程。
(3)弱监督是一个总括性的术语,它涵盖了试图通过较弱的监督来构建预测模型的各种研究。
(4)无监督的学习方法利用有相同语义关系的实体对进行关系抽取。

4. 语料

实体关系抽取研究大多都是基于英文语料,基于中文语料的研究相对较少,而且由于中文语言的独特性和复杂性,所以对中文的研究远比英文困难。

中文数据集:国外AEC05(这个数据集在官网下载不了,反正我没找到) ;国内COAE 2016 Task3(国内中文数据集很少,这个是16年新增加的任务)

英文数据集:SemEval2010 task 8(这个是全监督数据,用得人非常多)

评测标准:使用信息检索领域的评测标准,通常有准确率、召回率和F1值,其公式如下:
在这里插入图片描述

5. 关系抽取流程

关系抽取从流程上,可以分为流水线式抽取(Pipline)和联合抽取(Joint Extraction)两种。

流水线式抽取就是把关系抽取的任务分为两个步骤:首先做实体识别,再抽取出两个实体的关系。

联合抽取的方式就是一步到位,同时做好了实体和关系的抽取。

流水线式抽取会导致误差在各流程中传递和累加,而联合抽取的方式则实现难度更大。

作者:枷锁
链接:自然语言处理入门
来源:知乎

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/代码探险家/article/detail/947551
推荐阅读
相关标签
  

闽ICP备14008679号