当前位置:   article > 正文

信息抽取

信息抽取

信息抽取:信息抽取(Information Extraction,IE)作为自然语言处理技术的任务,该任务的重点在于从机器可读取的非结构化或半结构化的文本中抽取信息,最终以结构化的形式进行描述,使信息可以存入数据库以供进一步处理。

知识图谱(Knowledge Graph)以结构化的形式描述客观世界中概念、实体及其之间的关系,将互联网的信息表达成更接近人类认知世界的形式,提供了一种更好地组织、管理和理解互联网海量信息的能力。

知识图谱本质上是以三元组结构(主语-谓语-宾语)表示实体及实体关系的语义网络。

知识抽取 ,即从不同来源、不同结构的数据中进行知识提取,形成知识(结构化数据)存入到知识图谱。

信息抽取 ,即从自然语言文本中抽取指定类型的实体、关系、事件等事实信息,并形成结构化数据输出的文本处理技术。

信息抽取主要包括三个子任务
    关系抽取:通常我们说的三元组(triple)抽取,主要用于抽取实体间的关系。
    实体抽取:也就是命名实体识别。
    事件抽取:相当于一种多元关系的抽取。

                                                        知识图谱构建流程

非结构化文本的信息抽取主要包括命名实体识别、属性抽取、关系抽取、事件抽取等四个任务。命名实体识别是知识图谱构建和知识获取的基础和关键,属性抽取可看做实体和属性值之间的一种名词性关系而转化为关系抽取,因此信息抽取可归纳为实体抽取、关系抽取和事件抽取三大任务。

NER:深度学习、迁移学习使用低维、实值、稠密的向量形式表示字、词、句,再使用RNN/CNN/注意力机制等深层网络获取文本特征表示,避免了传统命名实体识别人工特征工程耗时耗力的问题,且得到了更好的效果,目前常用的框架方法有BiLSTM-CRF、BERT-CRF、BERT-BiLSTM-CRF

关系抽取三元组抽取,实体间的关系形式化地描述为关系三元组(主语,谓语,宾语),其中主语和宾语指的是实体,谓语指的是实体间的关系。

根据是否在同一个模型里开展实体抽取和关系分类,可以将关系抽取方法分为流水线(pipeline)学习联合(joint)学习两种

    流水线学习是指先对输入的句子进行实体抽取,将识别出的实体分别组合,然后再进行关系分类,这两个子过程是前后串联的,完全分离。

    联合学习是指在一个模型中实现实体抽取和关系分类子过程。该方法通过使两个子过程共享网络底层参数以及设计特定的标记策略来解决上述问题,其中使用特定的标记策略可以看作是一种序列标注问题。

#https://cloud.tencent.com/developer/news/692521

构建知识图谱过程当中,主要涉及以下几个方面的自然语言处理技术:

a. 实体命名识别(Name Entity Recognition)

b. 关系抽取(Relation Extraction)

c. 实体统一(Entity Resolution):将指代同一个实体的多种实体说法进行统一,可解决图谱的稀疏性问题。------实体对齐

目前实体对齐普遍采用的还是一种聚类的方法,关键在于定义合适的相似度的阈值。一般从三个维度来依次来考察:

首先会从字符的相似度的维度,基于的假设是具有相同描述的实体更有可能代表同实体。

第二个维度,是从属性的相似度的维度来看的,就是具有相同属性的和以及属性词的这些实体,有可能会代表是相同的对象。

第三个维度,是从结构相似度的维度来看,基于的假设是具有相同邻居的实体更有可能指向同对象。

d. 指代消解(Coreference Resolution):文中出现的一系列的指示代词到底指向哪一个实体。

 

#关系抽取工具:deepdive

https://blog.csdn.net/weixin_42001089/article/details/90749577

模型任务领域主要思想方法论文
BERT_MRC命名实体识别MRC片段抽取(问题+指针网络)A Unified MRC Framework for Named Entity Recognition
Multi-turn QA实体关系抽取多轮对话+指针网络Entity-Relation Extraction as Multi-turn Question Answering
HBT实体关系抽取指针网络A Novel Hierarchical Binary Tagging Framework for Joint Extraction of Entities and Relations
ETL-span实体关系抽取指针网络Joint Extraction of Entities and Relations Based ona Novel Decomposition Strategy

 

本体实际上就是对特定领域之中某套概念及其相互之间关系的形式化表达。——“本体论”

#事件抽取

概念:事件抽取技术是从非结构化信息中抽取出用户感兴趣的事件

应用场景:事件抽取在网络舆情监控、突发事件告警、情报收集领域有着重要应用。——社会热点事件

分类:元事件抽取(主要以动词驱动触发主题事件抽取(研究少

元事件抽取实现方式:基于模式匹配的方式基于机器学习的方式基于神经网络的抽取方法。

基于模式匹配的方式:人工构建元事件模板。

基于机器学习的方式:借鉴文本分类的思想,将事件类别及事件元素的识别转化成为分类问题,其核心在于分类器的构造和特征的选择。

对元事件的识别主要包括事件类别的识别与分类以及事件元素识别两大核心任务。

基于神经网络的抽取方法:有监督多元分类任务。

事件抽取方法可以分为句子级的事件抽取方法篇章级的事件抽取方法

元事件抽取分为触发词识别论元识别等任务。

组成事件的各元素包括: 触发词、事件类型、论元及论元角色

 

 

 

 

 

 

 

 

 

 

 

 

 

 

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/凡人多烦事01/article/detail/396539
推荐阅读
相关标签
  

闽ICP备14008679号