当前位置:   article > 正文

关于知识图谱中抽取方法总结_知识图谱实体抽取方法

知识图谱实体抽取方法

数据分为结构化和非结构化

关于非结构化数据抽取

- 抽取的三种方式
	- 实体抽取
	- 关系抽取
	- 事件抽取
  • 1
  • 2
  • 3
  • 4
实体抽取
  • 概念:实体抽取又称命名实体识别, 其目的是从文本中抽取实体信息元素, 包括人名、 组织机构名、 地理位置、 时间、 日期、 字符值和金额值等
  • 实体抽取方法:
    • 1、基于规则的方法:早期的命名实体识别方法主要采用人工编写规则的方式进行实体抽取。 这类方法首先构建大量的实体抽取规则, 一般由具有一定领域知识的专家手工构建。 然后, 将规则与文本字符串进行匹配, 识别命名实体。 这种实体抽取方式在小数据集上可以达到很高的准确率和召回率,但随着数据集的增大, 规则集的构建周期变长, 并且移植性较差。
    • 2、基于统计模型的方法:基于统计模型的方法利用完全标注或部分标注的语料进行模型训练, 主要采用的模型包括隐马尔可夫模型( HMM) 、条件马尔可夫模型( CMM) 、 最大熵模型( MEM) 以及条件随机场模型(CRF),该类方法将命名实体识别作为序列标注问题处理。 与普通的分类问题相比, 序列标注问题中当前标签的预测不仅与当前的输入特征相关, 还与之前的预测标签相关, 即预测标签序列是有强相互依赖关系的。 从自然文本中识别实体是一个典型的序列标注问题。 基于统计模型构建命名实体识别方法主要涉及训练语料标注、 特征定义和模型训练三个方面。
    • 3、基于深度学习的方法:一般地, 不同的神经网络结构在命名实体识别过程中扮演编码器的角色, 它们基于初始输入以及词的上下文信息, 得到每个词的新向量表示; 最后再通过CRF模型输出对每个词的标注结果。
关系抽取
  • 概念:关系抽取是知识抽取的重要子任务之一, 面向非结构化文本数据,关系抽取是从文本中抽取出两个或者多个实体之间的语义关系。 关系抽取与实体抽取密切相关, 一般在识别出文本中的实体后,再抽取实体之间可能存在的关系。 目前, 关系抽取方法可以分为基于模板的关系抽取方法、 基于监督学习的关系抽取方法和基于弱监督学习的关系抽取方法。
  • 关系抽取方法:
    • 1、基于模板的关系抽取方法:早期的实体关系抽取方法大多基于模板匹配实现。 该类方法基于语言学知识, 结合语料的特点, 由领域专家手工编写模板, 从文本中匹配具有特定关系的实体。 在小规模、 限定领域的实体关系抽取问题上, 基于模板的方法能够取得较好的效果。
    • 2、基于监督学习的关系抽取方法:基于监督学习的关系抽取方法将关系抽取转化为分类问题, 在大量标注数据的基础上, 训练有监督学习模型进行关系抽取。 利用监督学习方法进行关系抽取的一般步骤包括: 预定义关系的类型; 人工标注数据; 设计关系识别所需的特征, 一般根据实体所在句子的上下文计算获得; 选择分类模型( 如支持向量机、 神经网络和朴素贝叶斯等) , 基于标注数据训练模型; 对训练的模型进行评估。
      • 2.1、在上述步骤中, 关系抽取特征的定义对于抽取的结果具有较大的影响, 因此大量的研究工作围绕关系抽取特征的设计展开。 根据计算特征的复杂性, 可以将常用的特征分为轻量级、 中等量级和重量级三大类。轻量级特征主要是基于实体和词的特征, 例如句子中实体前后的词、 实体的类型以及实体间的距离等。 中等量级特征主要是基于句子中语块序列的特征。 重量级特征一般包括实体间的依存关系路径、 实体间依存树结构的距离以及其他特定的结构信息。
      • 2.2、基于深度学习的监督学习关系抽取方法:流水线方法和联合抽取方法两大类
        • 流水线方法将识别实体和关系抽取作为两个分离的过程进行处理, 两者不会相互影响; 关系抽取在实体抽取结果的基础上进行, 因此关系抽取的结果也依赖于实体抽取的结果。
        • 联合抽取方法将实体抽取和关系抽取相结合, 在统一的模型中共同优化; 联合抽取方法可以避免流水线方法存在的错误积累问题。
    • 3、基于弱监督学习的关系抽取方法:基于监督学习的关系抽取方法需要大量的训练语料, 特别是基于深度学习的方法, 模型的优化更依赖大量的训练数据。 当训练语料不足时, 弱监督学习方法可以只利用少量的标注数据进行模型学习。 基于弱监督学习的关系抽取方法主要包括远程监督方法和Bootstrapping方法。
      • 3.1、远程监督方法:远程监督方法通过将知识图谱与非结构化文本对齐的方式自动构建大量的训练数据, 减少模型对人工标注数据的依赖, 增强模型的跨领域适应能力。 远程监督方法的基本假设是如果两个实体在知识图谱中存在某种关系, 则包含两个实体的句子均表达了这种关系。
        • 远程监督关系抽取方法的一般步骤为:
          ●从知识图谱中抽取存在目标关系的实体对;
          ●从非结构化文本中抽取含有实体对的句子作为训练样例;
          ●训练监督学习模型进行关系抽取
      • 3.2、Bootstrapping 方法:Bootstrapping 方法利用少量的实例作为初始种子集合, 然后在种子集合上学习获得关系抽取的模板, 再利用模板抽取更多的实例, 加入种子集合中。 通过不断地迭代, Bootstrapping方法可以从文本中抽取关系的大量实例。
事件抽取
  • 概念:事件是指发生的事情, 通常具有时间、 地点、 参与者等属性。 事件的发生可能是因为一个动作的产生或者系统状态的改变。 事件抽取是指从自然语言文本中抽取出用户感兴趣的事件信息, 并以结构化的形式呈现出来, 例如事件发生的时间、 地点、 发生原因、 参与者等。
  • 一般地, 事件抽取任务包含的子任务有:
    ●识别事件触发词及事件类型;
    ●抽取事件元素的同时判断其角色;
    ●抽出描述事件的词组或句子;
    ●事件属性标注;
    ●事件共指消解。
  • 事件抽取方法:
    • 流水线方法:流水线方法将事件抽取任务分解为一系列基于分类的子任务, 包括事件识别、 元素抽取、 属性分类和可报告性判别; 每一个子任务由一个机器学习分类器负责实施。 一个基本的事件抽取流水线需要的分类器包括:
      (1) 事件触发词分类器。 判断词汇是否为事件触发词, 并基于触
      发词信息对事件类别进行分类。
      (2) 元素分类器。 判断词组是否为事件的元素。
      (3) 元素角色分类器。 判定事件元素的角色类别。
      (4) 属性分类器。 判定事件的属性。
      (5) 可报告性分类器。 判定是否存在值得报告的事件实例。
    • 联合抽取方法:事件抽取的流水线方法在每个子任务阶段都有可能存在误差, 这种误差会从前面的环节逐步传播到后面的环节, 从而导致误差不断累积,使得事件抽取的性能急剧衰减。 为了解决这一问题, 一些研究工作提出了事件的联合抽取方法。 在联合抽取方法中, 事件的所有相关信息会通过一个模型同时抽取出来。 一般地, 联合事件抽取方法可以采用联合推断或联合建模的方法,联合推断方法首先建立事件抽取子任务的模型, 然后将各个模型的目标函数进行组合, 形成联合推断的目标函数; 通过对联合目标函数进行优化, 获得事件抽取各个子任务的结果。 联合建模的方法在充分分析子任务间的关系后, 基于概率图模型进行联合建模, 获得事件抽取的总体结果。
声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/繁依Fanyi0/article/detail/348986
推荐阅读
相关标签
  

闽ICP备14008679号