当前位置:   article > 正文

信息抽取的介绍_信息抽取的基本概念,方法体系。

信息抽取的基本概念,方法体系。


前言

信息抽取(information extraction),即从自然语言文本中,抽取出特定的事件或事实信息,帮助我们将海量内容自动分类、提取和重构。这些信息通常包括实体(entity)、关系(relation)、事件(event)。例如从新闻中抽取时间、地点、关键人物,或者从技术文档中抽取产品名称、开发时间、性能指标等。

一、信息抽取的相关概念介绍

非结构化数据:诸如图片、文本、video、音频等数据,需要加以处理才能被模型训练。
抽取实体: 人、地名、时间,比如医疗领域:蛋白质、疾病、药物等等。
抽取关系:位于、工作在、部分等。
指代消解:判断一个代词具体是指向哪个实体。

命名实体识别(NER):识别文本中具有特定意义的实体。NER任务中的常用模型包括生成式模型HMM、判别式模型CRF等,但是之后出现的BILSTM-CRF效果要远好于之前的常用模型,并且成为目前基于深度学习的NER方法中的最主流模型。
NER评估方法:精确率/召回率,F1-score。

二、命名实体识别(NER)所使用的方法

2-1、利用规则

1、利用一个制定好的规则
2、利用已经定义好的词典

2-2、投票模型

即统计每个单词的实体类型,记录针对于每个单词,概率最大的实体类型。

2-3、利用分类模型

非时序模型:逻辑回归、SVM
时序模型:HMM,CRF,LSTM-CRF

参考文章:
信息抽取——关系抽取.


总结

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/你好赵伟/article/detail/396522
推荐阅读
相关标签
  

闽ICP备14008679号