当前位置:   article > 正文

知识图谱问答的思路 -- 笔记1_kgqa知识图谱

kgqa知识图谱

收发地址:https://zhuanlan.zhihu.com/p/143722983
本文是赵军《知识图谱》一书第十章“知识问答与对话”的笔记。(我觉得用处小的略。同时夹私货。)

有不对的地方请评论告诉我哈,谢谢。

一、知识图谱问答(KGQA)

1、基于语义解析的方法(Semantic Parsing)

将自然语言转化成结构化查询语言,如SPARQL、CQL ( cypher )等。

(私货1:另外关键词可以是Seq2Sql、Text2Sql等。当然这输出是SQL,但思路完全可以用到KGQA。)

首届中文NL2SQL挑战赛-天池大赛-阿里云天池
(私货2:对比追一&天池的NL2SQL的赛题方式来看。B站上搜NL2SQL有比赛思路。)

1.1、有监督方法——语义组合模型

1.1.1、组合范畴语法(CCG)构建“词典”+“组合规则”的方式,得到查询语句。

1.1.2、依存组合语义(DCS)机器逻辑表示语言 Lambda-DCS。

1.2、无监督方法——问句解析

分成三个步骤:

a、问句分析:将自然语言转化为查询语义三元组(query triplets);

b、资源映射:对上述三元组中的每一个,都对应上知识图谱中的对应资源;

c、生成查询语句:用“模板”生成查询语句。

2、基于搜索排序的方法

2.1、基于特征工程的方法

分成三个步骤:

a、问句特征抽取

通过对下述四项的提取,将依存句法树转化为问题特征图(question graph)。

  • 问题词question word:问句的明显特征(如谁、哪)
  • 问句焦点词question focus word : 暗示答案类型(如名字、时间、地点)
  • 主题词 question topic word : ( ?)
  • 中心动词 question verb :由词性标注得到

b、候选答案特征提取

如,候选实体“宁波市”有“省份 = 浙江省”、“类型 = 地名”等特征。

(私货:本书中直接就有候选实体了,可是候选实体是怎么来的呢?——按本书的姊妹篇《智能问答》的思路,候选实体是在所有实体中选择与“问句提及的实体”的“距离”小于阈值(多为2或3)的所有实体;其中的“距离”就是说,一个实体走几步(关系)才能到另一个实体。)

c、问句-候选答案匹配

先获得“a的问句特征”与“b的候选实体特征”之间的对应关系,比如a的“哪里”对应b的“类型 = 地名”。

而后将问题转化为“问句与候选答案的匹配”问题。该问题又可以建模成一对一对的“二分类”问题。

(私货:我想过不用分类走,按向量相似度走,行不行——不行,不管按数值还是独热构造向量都过于简单化了,细想其效果肯定巨差。)

2.2、基于表示学习的神经网络方法

(私货:我觉得应该叫“基于embedding的深度学习方法”更好。)

将问句和候选答案都转化成embedding,故问题转化为embedding之间的相似度匹配问题。

书中对“转化成embedding”和“embedding之间的相似度匹配”的具体方法给出了示例算法,但年代从2014-2017,貌似都与现在的思路有所区别,故略。


书中后面提及了常用评测数据:ATIS、GeoQuery、QALD、Free917、WebQuestion。

(私货:中文评测数据有CCKS2019_CKBQA。)

再后面“对话”的部分来不及写了~~


(私货1:读书和读论文一样,先画骨头再画肉,如果上来就纠结某个细节,整个思路就断了费了。)

(私货2:读书和读论文不一样,读论文是把一篇论文的某种思路和解决方法放到读者自己的知识体系中;而读书,以该书为例,一个小节就是一套思路方法,边读书边在自己的知识体系上找对应的位置并添在上面,反复操作。)

(私货3:作者写该书,涵盖极其广泛,总共才250页却涉及500多篇论文,,,纸张是小号的,也不厚,,,存在很多只介绍而不细说的章节,就会存在思路不能完全对上的情况,如本文中说到的不知道怎么就得到了候选实体的情况,就得边看边脑补,并对应别的资料补齐思路。)


如果有错,请指正;如果觉得还行,请点赞!谢谢!

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/凡人多烦事01/article/detail/348914
推荐阅读
相关标签
  

闽ICP备14008679号