UCAS - AI学院 - 知识图谱专项课 - 第8讲 - 课程笔记

作者：我家自动化 | 2024-04-22 10:45:54

踩

关系抽取

关系抽取

概述

关系抽取：自动识别由一对概念和联系这对概念的关系构成相关三元组 / 多元组
关系抽取信息来源：网页
- 结构化数据
- 半结构化数据
- 纯文本
关系类别
- ACE 61种
- TAC-KBP 39种
- SemEval 10种
难点
- 自然语言的多样性（同一关系的不同表述）
- 自然语言的歧义性（相同表述在不同语义下表示不同的关系）

面向非结构化文本的关系抽取

预定义关系抽取

关系分类
- 任务：给定两个实体，判断其关系
  - 关系集合已经定义好，实质是在关系集合中分类
- 方法：机器学习方法，将关系实例转换成高维空间中的特征向量，在标注语料库训练生成分类模型，在识别实体间关系
  - 基于特征向量的方法
    - 获取有效的词法、句法、语义等特征，并有效集成起来
    - 产生描述实体语义关系的各种局部特征和全局特征
    - 特征选取：从自由文本及其句法结构中抽取各种词汇特征以及结构化特征
    - Pros：简单使用、计算比较快
    - Cons：难以进一步挖掘有效平面特征
  - 基于核函数的方法
    - 挖掘反应语义关系的结构化信息及如何有效计算结构化信息之间的相似度
    - 核函数 $K (x, y)$ 表示二者之间的相似度
    - Pros：能够有效挖掘结构化信息
    - Cons：句法分析引入噪声，计算慢
  - 传统方法的问题
    - 需要抽取特征、专家知识
    - 很多语言缺乏处理工具，无法提取特征
    - 工具引入造成错误累积
    - 人工设计特征不一定合适
  - 基于深度学习的方法
    - 设计合理的网络结构，捕捉更多信息，更准确地完成关系抽取
    - CNN——建模局部特征
    - RNN——建模时序信息
    - 基于CNN的关系分类方法
      - 通过CNN学习文本语义特征
      - 词向量表示词汇语义特征（WordNet），CNN建模句子语义特征（词 + 位置）
      - 问题：CNN难以建模句子中长距离的依赖关系
    - 基于LSTM的关系分类方法
      - 双向LSTM，两个隐层向量对应位置求和
      - Attention层，隐层softmax
    - Pros：人工干预小，可扩展性好
    - Cons：可解释性差，训练时间长
实体关系联合抽取
- 任务：给定一个句子，需要识别句子中的实体以及实体之间的关系（RDF三元组）
- 序列标注方法
  - BIES标注，以及头尾实体序号组合
  - 考虑Other标签，不属于任何关系
  - 标注形式：BIES - Relation - ID
  - 根据标注结果得到三元组
  - 标注方法
    - LSTM + CRF
    - LSTM + LSTM（E-D）
    - LSTM + LSTM + bias（对Other标签的重要程度进行设置）
  - 问题：不能同时抽取重叠实体的两个三元组——多关系抽取
多关系抽取
- 任务：给定一个句子，需要识别所有的三元组（存在重叠实体情形）
- 重叠类型
  - 不重叠类型
  - 实体对重叠类型
  - 单个实体重叠类型
- 拷贝机制的端到端模型
  - Encoder：将自然语言句子编码成一个定长语义向量
  - Decoder：直接解码成各个三元组
  - 拷贝机制：原句内容拷贝到LSTM中，提高对应词置信度
  - OneDecoder策略：一个解码单元解码所有三元组
  - MultiDecoder策略：多个解码单元解码，一个解码单元解码一个三元组
远程监督关系抽取
- 利用知识库对文本自动进行回标得到远程监督数据集
- 无需人工参与，获取代价低，易扩展到大规模场景
- 起源：在Wikipedia抽取关系信息
  - 难以确定关系类别
  - 无法获取训练语料
  - infobox抽取信息——文本回标（对齐）——获得训练语料
- Distant Supervision
  - 使用知识库中的关系，启发式地标注语料
  - 假设：每一个同时包含连个实体的句子都会表述两个实体在知识库中的对应关系
  - 噪声问题
    - 标注负例
- 形式化描述
  - 数据构建
    - 给定知识库中的一个三元组 $r(e_1, e_2)$
    - 将同时包含了 $e_1$ 和 $e_2$ 的句子回标关系 $r$
    - 这样的句子集合称为包
  - 任务
    - 包级别的标签预测：远程监督关系抽取需要给未知的包预测语义标签
    - 常用FreeBase回标NYT语料
  - 方法
    - 概率图方法
    - 矩阵补全方法（观测矩阵 = 低秩矩阵 + 噪声矩阵）
    - 深度学习方法
      - 包级别关系预测
      - 句子级别的关系抽取
- 多实例学习
  - 不要确定包括两个实体的每个句子具有那种关系
  - 只要确定两个实体具体有那种关系就可以了
  - 目的：在不知道每个示例标签的情况下，根据训练集给定的包，通过学到的模型预测包的标签
- 多实例学习远程监督分类（多示例单标签）
  - 动机：远程监督数据存在噪声、传统NLP工具存在错误累积问题
  - 方法
    - 视为一个多示例问题
    - 一个包只有一个标签
    - 分段CNN，摆脱对NLP工具的依赖
      - PCNN（对句子处理，然后取分类概率最大的句子的关系作为包的关系，训练时只使用这个句子）
      - 利用分段池化保留更多信息，句子分为三段（头实体、中间、尾实体）池化
    - 词的表示：词 + 位置
- 多实例学习远程监督分类（多示例单标签 + 注意力机制）
  - 利用注意力机制减轻噪声影响
  - 方法
    - 用 CNN 对包中的每个句子进行表示
    - 计算每个句子的注意力权重
    - 包的表示等于各个句子表示加权之和
    - 对包的表示进行分类
- 多实例学习远程监督分类（多示例多标签）
  - 存在包有个关系的情形
  - 需要考虑跨句子的信息——隐式关系
  - 方法
    - 跨句子最大池化捕获句子的信息
    - 两种损失函数建模多标签
- 强化学习
  - 噪声信息不可避免
  - 基于句子级的示例挑选，得到包级别表示，可以有效滤除噪声
  - 每个包打多个标签，每个句子只有一个标签，可以指出那个句子给出了哪个标签，训练时直接判断哪些句子是噪声，并直接过滤掉，训练一个句子级别的分类器，为每个句子分类
  - 强化学习过程
    - 示例挑选器和关系分类器互相促进
    - 实力选择器挑选出有效的句子参与分类（策略梯度训练）
    - 关系分类器对挑选出的句子进行分类
- 句子级远程监督关系分类（强化学习）
  - 包级别只关心包的关系
  - 句子级关系同时关心包中各句子类别
  - 利用远程监督数据对句子进行关系分类
  - 句子关系分类器，利用“至少一个”假设预测包的关系

开放式关系抽取

通过识别表达语义关系的短语抽取实体之间的关系
使用句法和统计数据过滤抽取的三元组
Pros：无需预先定义关系类别
Cons：语义未归一化，同一关系有不同表示
传统方法
- TextRunner
  - 语料的自动生成（依存句法分析）和分类器训练（朴素贝叶斯）
  - 大规模关系三元组的抽取
  - 关系三元组可信度计算（相似合并，利用网络频率计算）
深度学习方法
- 拷贝机制 + Seq2Seq
  - 句子片段作为三元组拷贝到模型

面向半结构化文本的关系抽取

目标：从半结构化网页中抽取实体属性名以及实体属性值
方法
- 半结构化信息块定位
  - 具有相同模式的实体关系属性名总时连续出现
  - “XXX：”的结构出现
  - 关键在于属性名称的确定
  - 问题：仅依靠已有属性名定位，召回率低
  - 基本框架
    - 首先利用结构化信息识别半结构化块
    - 然后在识别的块中学习属性模板并抽取属性
    - 对模板和属性名进行排序，获得高质量的模板和属性名
    - 利用高质量的模板和属性名进行定位和抽取
    - [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-5ZIsSp1C-1588178569882)(assets/image-20200429193127144.png)]
  - 启发式规则P8
- 模板学习
  - 确定前缀和分隔符
- Ranker对抽取模板于属性名进行排序
  - Graph，Random Walking
- 单个页面内实体属性抽取
  - 利用网站级知识在页面定位半结构化信息块
  - 抽取属性名和属性值
  - 确定实体1
    - 大多数情况下条目名称
    - 并列结构情形

数据和评测

评测语料：P16
- ACE：关系检测和识别
- TAC-KBP
- SemEval：信息抽取
- NYT：数据构建（Freebase回标）
- WebNLG：为生成任务构建，数据构建

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/我家自动化/article/detail/468301