赞
踩
1.关系抽取是自动识别由一对概念和联系这对概念的关系构成的相关三元组;
2. 关系类别ACE61种;TAC- KBP;SemEval,每种关系都是有序关系;
3. 知识图谱关系类别
Freebase:4000多万实体,上万个属性关系,24多亿个事实三元组
DBpeida:400多万实体,48,293种属性关系,10亿个事实三元组
NELL: 519万实体,306种关系, 5亿候选三元组
Knowledge Vault: 4500万实体,4469种关系,2.7亿三元组
4. 关系抽取任务类型
非结构文本的关系抽取(学术界要做的):限定域关系抽取(关系分类、实体关系联合抽取、多关系抽取、远程监督关系抽取);开放域抽取(传统方法、深度学习方法)。
5. 关系抽取难点
自然语言的多样性,同一种关系多种不同表达;
自然语言奇异性,相同表述在不同语境下表示不同的关系。
1. 关系分类任务:给定一个句子以及句子中的两个实体,判断这两个实体之间是什么关系;
因为关系集合已经预先定义好了,所以这个任务实质上是一个分类任务,因此叫做关系分类。
方法:采用统计机器学习的方法,将关系实例转换成高维空间中的特征向量,在标注语料库上训练生成分类模型,然后再识别实体间关系。基于特征向量的方法(最大熵、支持向量机)、基于核函数(浅层树核)
基于深度学习方法;
2. 关系分类特征向量方法:如何获取各种有效的词法、句法、语义等特征,并把它们有效地集成起来,从而产生描述实体语义关系的各种局部特征和简单的全局特征;
从自由文本及其句法结构中抽取出各种词汇特征以及结构化特征;
3. 关系分类:核函数方法
主要任务:如何有效挖掘反映语义关系的结构化信息及如何有效计算结构化信息之间的相似度
存在的问题
问题1:对于缺少NLP处理工具和资源的语言,无法提取文本特征
问题2:NLP工具引入的“错误累积”
问题3:人工设计的特征不一定适合当前任务
4. 实体关系联合抽取:给定一个句子,需要识别句子中的实体以及实体之间的关系
实体关系联合抽取:序列标注方法
对每个关系,将其与(Begin,Inside,End,Single)以及头实体和尾实体的序号(1,2)组合 ;
额外考虑一个Other标签,表示不属于任何一个关系;
如果总共有|
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。