赞
踩
如何从结构化或非结构化文本中识别出实体之间的关系是知识图谱构建的核心任务之一。
关系抽取:自动识别实体之间具有的某种语义关系。
(arg1,relation,arg2)三元组
。eg:(中国,首都,北京)根据数据源的不同,可分为:
根据抽取文本的范围不同,关系抽取可分为
根据抽取领域的划分,可分为:
“姚明出生于上海”
和 “姚明的出生地是上海”
都表达姚明和上海具有出生地关系。“李梅是我的姑娘。”
中的姑娘可以指女儿,也可以指女朋友。“三国时期,蜀国多维能征善战的将军,他们分别是:关羽、张飞、赵云、黄忠和马忠。”
“蒂姆·库克与中国移动董事长奚国华会面商谈“合作事宜”,透露出了他将带领苹果公司进一步开拓中国市场的讯号。”
==》推断:蒂姆·库克是苹果公司的首席执行官(CEO)MUC(消息理解会议)、ACE(自动内容抽取)和TAC(文本分析会议)三大国际测评会议 和 语义测评会议(SemEval)
限定域关系抽取:在一个或多个限定的领域内判别文本中所出现的实体指称之间是何种语义关系,且待判别的语义关系是预定义的。
可看作 ==》文本分类任务
基本思想:通过人工编辑或学习得到的模板对文本中的实体关系进行抽取和判别。
例如:假设X和Y表示公司类型,可使用如下模板表示收购(ACQUISITION)
关系。当满足下述模板,则表示两个实体指称在这个句子中具有收购(ACQUISITION)
关系。
X
i
s
a
c
q
u
i
r
e
d
b
y
Y
X
i
s
p
u
r
c
h
a
s
e
d
b
y
Y
X
i
s
b
o
u
g
h
t
b
y
Y
X\ is\ acquired\ by\ Y \\ X\ is\ purchased\ by\ Y \\ X\ is\ bought\ by\ Y
X is acquired by YX is purchased by YX is bought by Y
由于人工定义模板的方法不能针对多类关系穷举所有的模板,则需采用自动的方法学习抽取模板。
==》① 如何学习用于抽取关系的模板?② 如何将学习到的模板进行聚类?
==》多采用 提升(BootStrapping)策略,对于实体和模板进行联合迭代式地交替抽取和学习。
基本出发点:一种语义关系可采用对偶的方式进行表示,可以利用实体对在文本中获取的模板信息,再利用获得的模板抽取更多的实体对。
收购(ACQUISITION)
关系,则可给出实体对(You Tube, Google)、(Powerset, Microsoft)、(Inktomi, YAHOO)
等关键步骤:抽取句子中的实体对之间的表达关系的模板。 模板是基于词汇的,也可以是基于句法或语义的。
步骤:
示例:
缺点:受限于模板的质量和覆盖度,可扩展性不强。
将关系抽取看成一个分类问题,应用机器学习的方法解决该问题,可以分为:有监督的关系抽取方法 和 弱监督的关系抽取方法
主要工作:何如抽取出表征实体指称项间语义关系的有效特征。
常分为:基于特征工程的方法、基于核函数的方法、基于神经网络的方法
研究重点:如何提取具有区分性的特征。
步骤:
常见的关系抽取特征如下:
示例:"Jobs was the co-founder of Apple."
基于核函数的方法直接以结构树为处理对象,在计算关系之间距离时使用核函数。
典型核函数:树核函数、依存树核函数、最短依存树核函数、最短路径包含树核…
上述两类模板的可扩展性存在很大问题,限制这些方法的应用和推广:
步骤:
2014年,Zeng等提出基于卷积神经网络的关系抽取模型。
过程:首先,输入的句子通过词向量表示,转化为向量的形式输入网络。然后,特征抽取部分进一步抽取词汇级别特征和句子级别特征,并拼接起来作为最终的特征进行关系分类。
词向量输入
词汇级别特征
句子级别特征
距离监督(Distant Supervision)利用结构化三元组的形式的数据,让知识图谱自动标注训练样本。
假设:如果两个实体之间存在某种关系,则所有包含这两个实体的句子都表达了这种关系,这些句子的集合被称为一个“包”
Zeng等使用分段卷积神经网络抽取文本的特征。
典型的弱监督关系抽取系统
开放域关系抽取不需要预先定义关系,而是使用实体对上下文中的一些词语来描述实体之间的关系。
典型原型系统:TextRunner、Kylin、WOE、ReVerb等
过程:通过一些简单的启发式规则自动从宾州树库里面获取实体关系三元组的正负样本,根据它们的一些浅层句法特征训练一个分类器来判断两个实体间是否存在语义关系;然后将网络文本进行一定的处理后作为候选句子,提取其浅层句法特征,利用分类器来判断所抽取的关系三元组是否可信,最后利用网络数据的冗余信息,对初步认定可信的关系进行评估。对于关系名称的抽取,则是将动词作为关系名称。
主要包含三个模块:语料的自动生成和分类器训练、大规模关系三元组的抽取、关系三元组可信度计算。
语料的自动生成:根据依存句法分析结合启发式规则自动生成语料。利用的启发式规则举例如下:
分类器训练:利用朴素贝叶斯分类器进行训练,其使用的特征举例如下:
利用上述训练好的关系抽取器,在web文本上抽取并存储
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。