赞
踩
公众号 系统之神与我同在
知识图谱是下一代人工智能的基础设施, 是实现可解释人工智能的重要手段。
事件图谱的意义:通用领域
丰富现有的知识图谱
支撑其它信息获取引擎
事件图谱构建的关键技术:事件抽取
事件抽取
·从自然语言文本中抽取出用户感兴趣的事件信息并以结构化的形式呈现出 来,
·如什么人/组织,什么时间,在什么地方,做了什么事
事件抽取相关的任务
·事件发现(Event Detection):从文本中发现事件触发词(Event Trigger)
·事件元素抽取(Argument Extraction):从文本中识别事件元素(EventArgument)并判断元素扮演的角色(Argument role)
事件图谱构建的关键技术:事件关系抽取
共指关系
数据来源:ACE-Chinese
因果关系
数据来源:百度百科
时序关系
数据来源:百度百科
相关评测及语料
ACE事件类型示例
事件抽取
神经网络事件抽取
神经网络事件抽取
神经网络事件抽取
神经网络的事件抽取模型大力推动了事件抽取的研究
– 在ACE 2005英文数据集上,事件检测性能
2013年:67.5
2020年:74.9
– 在ACE 2005英文数据集上,元素抽取性能
2013年:52.7
2020年:70.1
**问题:**依赖大量人工标注的训练数据,仅利用文本从句子中抽取固定类别的事件知识。
数据层面
基于阅读理解范式的事件抽取
动机
– 传统方法将事件抽取建模为分类/序列标注的任务
·在样本较多的常见事件类型上表现较好
·在样本较少的罕见事件类型上表现较差
基于阅读理解范式的事件抽取
挑战
– 如何生成事件框架相关的问题?
·问句主题生成
·问句内容生成
问句内容生成
·单语翻译(风格转换)任务
·无监督机器翻译
基于阅读理解范式的事件抽取
模型框架
基于阅读理解范式的事件抽取
实验结果
基于世界知识和语言学知识的数据自动生成
动机 ——运用结构化的知识库自动生成语料
远距离监督的方法在关系抽取中取得成功
挑战1:现有事件知识库中缺少触发词信息
– 关系知识库: ( 实体1,关系,实体2)
可以利用Michelle Obama 和 Barack Obama回标
– 事件知识库:(事件实例,事件类型;角色1,事件元素1;角色2,事件元素2 角色N,事件元素N)
上图的例子中事件实例是Michelle Obama和Barack Obama结婚的事件,知识库中用虚拟节点m.02nqglv表示。
无法利用m.02nqglv和Barack Obama直接回标。
挑战2:事件元素并不都是必须出现
– 知识库中只有60%的事件实例包含所有的事件元素
挑战3:一个事件的多个元素可以出现在多个句子中
– 只有0.02%的事件实例能在一句话中找到所有的事件元素
方法
– 利用世界知识和语言学知识
– 自动生成大规模事件语料
自动生成的数据
·当仅利用两个核心元素回标时,生成421,602个标注数据,但是这个数据中没有标注触发词信息
·当同时利用核心元素和事件触发词回标时,生成72,611个标注数据
·与ACE人工标注的将近6,000个的标注数据相比,我们提出的方法能自动生成大规模训练数据
标注数据的人工评价
·随机地从标注数据中选择500 个样例,重复三次以平均正确率作为人工评 价的结果
·评判中每个句子都由三个标注者评价,最终投票决定
标注数据的自动评价
数据:ACE,ED only, ACE+ ED
评价指标:同ACE一样
实验结果:
动机
·传统事件抽取方法都是在预定义类别的数据集上训练,事件类型固定
·原始数据可能无法全部保存,全部类别重新训练时间和空间成本过高
·直接在新类别上微调原有模型,会有遗忘灾难问题
基于知识巩固网络的增量事件识别
挑战
·如何保存有代表性的样本
·新旧类别数据量不一致,会有偏置问题
• 方法
基于知识巩固网络的增量事件识别
实验
实验
文本层面
多事件协同抽取
多事件协同抽取
基于层次偏置标注网络和多粒度门控关注机制的多事件协同抽取
实验结果
篇章级金融事件抽取
• 挑战
– 标注数据的缺失
•现有的事件抽取系统性能都依赖于人工标注数据
•人工标注数据耗时费力,成本高昂,金融领域缺乏大规模高质量的标注数据
– 篇章级事件抽取
• 目前大多数的事件抽取系统都是针对一个句子进行抽取
• 由多个句子描述一个事件,一个事件的多个元素分布在不同的句子中
自动生成标注数据
基于序列标注+元素补齐策略的篇章级事件抽取
实验结果
知识层面
仅利用文本信息很难完成事件因果关系推断
·知识图谱中存有相关的背景知识
· 因果语义表达规律+背景知识能有效提升因果推断能力
知识增强的事件因果关系识别
金融领域的应用:输入为公司公告文本
金融领域的应用:逐句分析结果
金融领域的应用:篇章分析结果(单句)
金融领域的应用:篇章分析结果(多句)
金融领域的应用
学术评测
面向金融领域的事件抽取系列评测
− 2019年:http://link.zhihu.com/?target=https%3A//www.biendata.com/competition/ccks_2019_4/
− 2020年:http://link.zhihu.com/?target=https%3A//www.biendata.xyz/competition/ccks_2020_4_1/
总结
事件知识不可或缺
·企业信息监控
·风险信用控制
·智能投顾
通用领域的事件抽取很难
·大规模、高质量的训练数据
·鲁棒的特征表示
限定域的事件抽取有可能取得不错的性能
·文本类型受限
·语言表示规律性较强,知识密集
未来工作
·复杂场景下的事件抽取:篇章级事件抽取、增量事件抽取
·人机协同式事件关系抽取
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。