赞
踩
知识图谱有着较长的发展历史(经历过早期本体时代、语义网时代),并形成了较多的流派,因而知识图谱的定义也是多种多样。但是最起码的共识定义
是:知识图谱的本质是一个语义网络,它旨在描述客观世界的概念实体事件及其之间的关系,并且对它们进行语义建模;知识图谱是一种基于图的数据结构,由节点和边构成,每个节点表示一个“实体”,每条边为实体之间的“关系”。
早期的语义网络受限于我们的处理方法以及技术水平,它更多是依赖于专家的经验规则去构建,在规模方面受限于特定领域的数据;而目前的的知识图谱所说的语义网络就不需要那么依赖于专家的经验去构建了,它使用成熟的 NLP 技术去自动挖掘“实体”以及“关系”用于构建语义网络。
如上图所示,在知识图谱中,各个节点(现实世界中的事件、数据、信息)不再是孤立的,它们是通过特定的关系(边)链接在一起,从而形成结构化的知识表示,这种图数据结构很容易被人们理解接受,并且也很容易被计算机识别和处理。
知识图谱的核心
其实就是三元组
,即实体(Entity)、属性(Attribute)和关系(Relation),形式为<实体,关系,实体>
或<实体,属性,属性值>
;而这样的三元组正好可以构建成图数据格式,如上图所示的示意图,可以拆分成三元组的形式如下:
<丽江,属于,云南>
<大理,属于,云南>
<洱海,属于,大理>
<小秦,住在,丽江>
<小明,住在,大理>
<小明,朋友,小秦>
同理,上述三元组也可以组成一个图结构。也即三元组
与图结构
是两个等价表示。
此外,基于已有三元组可以推导出新的关系三元组,这对构建知识图谱非常重要,同时这也是知识图谱具有推理能力
的基础。比如由两个三元组<翅膀 part-of 鸟>,<麻雀 kind-of 鸟>,可以推导出<翅膀 part-of 麻雀>这样一个事实。
知识图谱的发展最早可追溯到二十世纪六十年,如下图所示。它的诞生过程经历过语义网、描述逻辑和专家系统等阶段。
通常情况下,知识图谱可以分成开放领域知识图谱
和垂直领域知识图谱
两大类:
开放领域(通用)知识图谱
面向通用领域,面向的是全部的互联网用户,实际上是谷歌或者百度这样的搜索公司在构建,它的构建是以常识性的知识为主,包括结构化的百科知识,此类知识图谱强调知识的广度
,而对深度不做更多要求。
垂直领域(行业)知识图谱
此类知识图谱的定位是面向特定的领域或者行业,比如医疗知识图谱、工业知识图谱等,他的数据来源是特定的行业语料,它强调知识的深度
,而不是广度。
两者的关系
通用知识图谱和行业知识图谱之间并不是相互独立的,他们是具有互补
的关系,一方面前者会吸纳后者的知识来扩充它的知识面,增加知识广度;另一方面,构建行业知识图谱也可以从通用知识图谱里吸纳一些常识性的知识作为补充,以形成更完整的行业知识图谱。
构建知识图谱的一般流程
和所需知识栈
,如下图所示:
构建一个完整的知识图谱一般会经历如下步骤:
收集数据,确认拥有什么可使用的数据,去收集,然后对数据做最基本的处理;
知识定义,结合所拥有的数据以及知识图谱的用途,定义知识模式,定义实体类型和实体之间的关系;
获取知识,前面收集的数据仅仅是一些零散的信息,距离它们成为能用的知识还很远,因此需要使用命名实体识别、关系抽取、属性抽取等技术去获取知识;
知识融合,由于知识的来源可能多种多样,当获取了知识之后,我们有必要将知识做融合,比如我们获取了有关“成龙”、“Jack Chen” 等相关知识,众所周知 Jack Chen 就是成龙,成龙就是 Jack Chen,那么有必要将这两者进行实体对齐等操作;
知识存储,当有了知识后,我们需要将其存储,存储的目的是方便对知识的查询和推理应用,目前流行的是使用图数据库,比如使用neo4j
来存储,当然你也可以不使用图数据库,完全看你的喜欢;
知识赋能应用,有了知识图谱,那么就可以利用其去支持一些应用
知识图谱的主要应用领域有:
在搜索引擎中做语义检索、智能问答客服、金融风控、人物关系图谱、决策辅助、智能制造等。
文章转载自:https://mp.weixin.qq.com/s/SSXatxIZvFtqw9LXfmN3Aw
赞
踩
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。