赞
踩
知识图问答 (KGQA) 系统使用户能够从知识图 (KG) 中检索数据,而无需完全了解 KG 模式。用户可以通过以自然语言问题 (NLQ) 的形式表达他们的信息需求来从 KG 获取数据,而不是使用特定的正式查询语言来制定精确的查询。
需要完成许多子任务才能开发出性能良好的 KGQA 系统——例如,实体链接、关系链接和答案检索。
简单问题:Simple Question 只包含单个关系实例。
e.g.“Where is the capital of Indonesia?”(Yani 和 Krisnadhi, 2021, p. 1) (pdf) 只包含一个关系“is capital of”
复杂问题:Complex Question 包含两个或多个关系实例。
e.g.“Who is the mayor of the capital of Japan?” (Yani 和 Krisnadhi, 2021, p. 1) (pdf) 包含两个关系“is mayor of” (pdf) 、“is capital of” (pdf)
KGSQA:针对简单问题的KGQA,Knowledge graph simple question answer
请注意,问题中关系实例的数量也代表需要从 KG 查询以获得答案的三元组语句的数量。
现在许多的复杂问题KGQA的通用方法是将复杂问题分解成多个简单的子任务,即多个KGSQA。KGSQA的成效直接影响到复杂问题KGQA的结果。
目前性能最好的 KGSQA 解决方案 [16] 仅达到了 90% 以下的准确率。这表明以 KGSQA 为重点的进一步研究是有充分理由的,对该领域的重点调查将对其有益。
数据集问题:Freebase是最大的简单问题数据集,数据量大概在10w左右,但于2016年停止维护。“Wikidata [21]”“DBPedia [22]” (pdf) 可用。现在大部分数据集既包括简单问题和复杂问题,其中简单问题还是占大多数。
从实际角度来说,2019 年和 2020 年谷歌搜索引擎上最常见的 100 个问题都是简单问题。简单问题的应用面更大。
上述论点表明,KGSQA 是一个重要挑战,应该得到很好的解决,以实现整体高性能的 KGQA 系统。
KG:knowledge graph.“a graph of data intended to accumulate and convey knowledge of the real world, whose nodes represent entities of interest and whose edges represent relations between these entities.” (pdf)
KG可以表示为多个K组成的集合,一个K由(s,p,o)的三元组组成,分别表示主语subject、谓语predicate、宾语pbject。三元组的主语和宾语代表实体,谓语代表主语实体到宾语实体的关系。即RDF框架模型。相应的查询语言为SPARQL。
vacabulary:K中的实体和关系构成了K的词汇表
NLQ:Natural language question
KGQA 的一种传统方法是语义解析,其中给定的问题首先被翻译成它的语义表示,即“等效”查询,然后在 KG 上执行以检索答案。然而,深度学习研究的快速发展产生了一种替代策略,可以避免显式转换为查询。相反,它采用基于神经网络的模型,其中问题和 KG(或其部分)在向量空间中表示,并使用向量空间操作来获得答案。
通常,端到端的 KGQA 系统由两个主要部分组成。第一部分处理通过其关键术语和结构理解输入问题的意图的问题,称为问题理解 [32,33] 或实体识别 [34]。第二部分处理使用第一部分中提取的术语和结构从 KG 获得匹配答案的问题。如果显式构造 KG 查询,这称为查询评估 [32,33] 或查询选择 [34],如果使用向量空间操作而不是显式 KG 查询,则称为嵌入空间联合搜索 [35]。
KGQA 系统的性能评估通常是通过使用基准数据集来完成的。
常用的性能指标包括准确率、召回率、精确率和 Fmeasure [24]。
实体/关系 检测/预测/链接和答案匹配
(Yani 和 Krisnadhi, 2021, p. 7)
问题理解:包括实体/关系 检测/预测/链接
实体/关系检测: 确定哪些mentions(“提及“)在query中代表实体/关系
**?**实体/关系预测:“Entity/relation prediction aims to classify q to a category labeled by an entity e ∈ EK (entity prediction) or a relation r ∈ RK (relation prediction) where e and r are an entity and a relation mentioned in q.” (Yani 和 Krisnadhi, 2021, p. 7) (pdf) 实体/关系预测旨在将 q 分类为由实体 e ∈ EK(实体预测)或关系 r ∈ RK(关系预测)标记的类别,其中 e 和 r 是实体和 q 中提到的关系。
(如何理解?给qurey打标?)
实体/关系链接:将query中的实体/关系提及(mentions)链接到(correct)图谱中的实体/关系
e.g. “the question q = “Where is the capital of the Empire of Japan?”” (Yani 和 Krisnadhi, 2021, p. 7) (pdf) 且图谱中存在“Japan”这个实体和“capital of”这个关系
实体/关系检测:应检测到实体“the Empire of Japan”和关系“the capital of”
实体/关系预测:“Japan”和“capital of”应该被看作可能的类别标签。然后需要将问题 q 分配给 Japan 和 capital of,即标签是针对问题的。
实体/关系链接:将“Japan”和“the Empire of Japan”对应,“is the capital of”和“capital of”对应
可能涉及的问题:
1.词汇差距和歧义(lexical gap and ambiguity)
e.g. “Who is the leader of Manchester United?” (pdf) 中的关系“leader”可以表示为 KG 中的“manager”关系。
e.g. 同义词“vehicle”和”car”
2.未知结构(unknown structure):query中的某些mentions不在图谱K的词汇表中。
给定输入问题 q,在 K 中找到最接近的匹配三元组。
由于 KGSQA 中的问题仅包含单个实体 e 和单个关系 r 的提及,一旦从 K 中正确识别出 e 和 r(通过实体/关系检测/预测/链接),就可以通过并集轻松获得答案两个查询 {(?x, r, e)} ∪ {(e, r, ?x)} 其中 ?x 是表示对 q 的答案的变量。
由于正确识别e和r的难度很大,因此,另一种观点是将 q 和/或 K 嵌入向量空间,然后使用深度学习模型在它们之间建立高质量的关联,而无需实际构建显式查询。
子图选择:在query中,可能会有mentions匹配多个不同实体的情况,一些KGSQA系统额外增加了子图选择任务。
在这个任务中,给定一些锚点信息(anchor),如实体/关系提及,只在K中选择相关部分作为匹配的基础。所选部分可以是一组三元组的形式,即较小的 KG,或一组实体和/或关系,即 EK 或 RK 的子集。
可能涉及的问题:
答案不确定性:模型中的不确定性不断传播累计到答案,因此最终结果存在不确定性。估计答案不确定性的好方法将有助于减少答案中的错误或解释为什么会出现此类错误。
MemNNs、CNNs、GRU、Bi-GRU、LSTM、Bi-LSTM、transformer架构
(Yani 和 Krisnadhi, 2021, p. 10)
(Yani 和 Krisnadhi, 2021, p. 11)
实体检测组件:主要思想是将实体检测视为一个序列标记问题,自然而然地使用 RNN 对其进行建模。其他有Bi-GRU、Bi-LSTM。众所周知,BERT 在许多 NLP 任务中优于更传统的 RNN。然而,对于 KGSQA 中的实体检测,这种改进尚未得到证实。
实体预测组件:也被视为序列标记问题,预测是通过使用某种形式的似然或距离优化将问题的嵌入与正确实体的嵌入配对来完成的。
实体链接组件:在问题中提到的实体和 KG 实体之间使用各种形式的字符串或 N-gram 匹配。主要原因是因为实体提及已经通过实体检测模型识别,或者 KG 实体已被预测与问题相关联;因此,只需要将其与正确的 N-gram mention 匹配即可。其他有使用具有自适应最大池化的 CNN。
答案匹配:大多数方法使用各种形式的字符串匹配、结构匹配或直接查询构造。使用字符串标签相似性或图形结构相似性等标准。
子图选择:在提及/检测到的实体和 KG 实体/关系之间使用某种形式的字符串匹配。其他有将字符串匹配与提及和 KG 实体的共现概率结合到一个子图选择标准中。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。