赞
踩
本文来自公众号PlantData知识图谱实战(ID:KGPlantData),内容整理自胡芳槐博士6月9日北理工知识图谱实战学习活动上分享的《知识图谱应用关键技术及行业应用》。
今天我要分享的主题是知识图谱应用关键技术及我们在行业应用中的一些探索,其实刚刚漆老师已经给我们分享了一个非常有趣的知识图谱应用,就是佛学。
那么刚刚提到的佛学考试,可能现在确实不多,但是最近大家应该能够看到,在我们的朋友圈中有一些高考机器人的文章被刷屏,也就是有很多的学霸被这些机器人所代替了,其实他们后面很大程度的用了知识图谱相关的技术。
今天我的分享分为两个部分:
首先我们按照惯例,看一下什么是知识图谱,我这里引用的是语义网之父的一句话:语义网它是一个面向数据的互联网,从某种含义上来说,它其实就是一个全局的数据库。
我们都知道,现在我们看到的网站,可以说是面向文档和网页的一个互联网,在这个互联网中间,它的主要信息是通过网页来表达的,网页方便之处是易于被人类所理解,所以平时我们查阅信息还是比较方便的,但是它有一个缺点,就是语义信息不足,所以机器理解起来比较困难,现在我们的互联网正在转变,它在转变成为一种面向数据的互联网,在这种互联网里面,它的信息和数据是可以被机器理解的。
我们看一下什么是面向数据的互联网,现在我们的互联网中间,它不应该只是一个个的网页,它应该更多的是一个个的事物,或者说是一个个的实体,就像我们这个图中间看到的,互联网里面包含的更多的是对这些具体事物的描述。这张图里面包含了建筑、糖果、化学物,还有艺术作品等。
这就是面向数据的互联网中具体的事物,这些事物本身并不是孤立的,它们相互关联,这就构成了这些事物之间的各种各样的关联关系,这可以说是面向数据的互联网的本质:首先有各种各样的事物,然后是这些事物之间的关联关系。
我们再来看一下,为什么会出现面向数据的互联网这样一个概念,从07年左右开始,我们可以看到,开放链接数据越来越多,这个图从07年到现在,正好是10年左右的时间,我们可以看到它的发展是非常快的,这个网络在不断的增加。这些数据相对来说都是结构化附有语义的,是一个个具体的事物。
在这一背景下面,Google在12年的时候,提出了“知识图谱”的概念,刚刚漆老师提到,Google主要用它来构建下一代的搜索引擎,Google提出知识图谱的时候,用了这么一个短句:
Things, not strings!
也就是说,在互联网中它不是一个个字符串,而是一个个真实存在的事物,事物之间还有相应的关联关系,右下角图我们可以看到,里面有人物,并且还有他们之间的关联。
其实定义是非常多的,我这里提供一个我们自己的理解:知识图谱主要的目标是用来描述真实世界中间存在的各种实体和概念,以及它们之间的关联关系。
我们最开始的时候也提到了,它是一个全局的数据库,在这个全局的数据库中间,更多的希望它所有的事物都有一个全局唯一确定的ID,就像网页一样,每个网页都有一个唯一的url来标识,对每个实体和概念,我们也同样的用这么一个ID去描述,称之为标识符。
同时对于这些实体,它们的属性,我们就用“属性–值对“来刻画它的内在特性,比如说我们的人物,他有年龄、身高、体重属性;同时我们还用关系来描述两个实体之间的关联。
下面这两个图,就体现了事物和它们之间的关系。
知识图谱的概念还是比较明确的,但是有很多朋友还是会存在疑问。
知识图谱并不是一个全新的东西,而是在以前的技术或理论上面,进行的一个重新的定义,引入了一个新的概念。
这一特性很重要,会用在我们很多的地方,比如说我们在Linked Open Data里面就用到了这种理念,同时我们提到了在后面企业大数据的应用里面,其实也会用到这个特性,它可以支持数据动态变迁的能力。
我们这里列举了一些,主要是人工智能相关的,因为现在人工智能非常火爆。
以上是对知识图谱用途的一个简单的介绍。
接下来我们来看知识图谱的第一个应用,也就是知识图谱提出的初衷——用来改善搜索。
如果我们现在去 Google 搜北京理工大学的时候,我们可以看到右边有一个知识卡片,它里面包含了北理工的很多基本介绍,同时还有一些基本的属性,这是知识图谱用在搜索里面给我们带来的第一个变化;
如果我们再用百度试一下,很多人搜的时候可能会想,如果要考北京理工大学,大概要多少分,正好这两天也是高考的时间,现在我们搜的时候可以看到,在不同的区域,它会根据你的定位,自动把北理工在当前省份去年、前年和前几年的一个分数展示出来,同时我们也可以看到一个地图,地图的作用是告诉你北理工在什么地方。
通过知识图谱,我们在搜索引擎里面可以看到丰富的结果,在右边我们可以看到和北理工相关的高校,以及和北理工相关的其他一些事物,这就是知识图谱给我们带来的搜索的改变。
同时我们还可以看到,在搜索结果里面,不仅仅是一些结构化的信息,它还有很多关联的关系。
比如我们去搜SuperCell这家公司,这是一个游戏公司,我们可以看到它的很多相关联信息,比如CEO、母公司、创建地址,它是被腾讯收购的一家创建于荷兰的公司。
除了在搜索引擎里面,在社交网络中也用到了知识图谱,如果用过Facebook,它就用了知识图谱的技术去链接里面的人物、地点和事件,正如我们举的两个例子:如果去搜喜欢哈佛大学的人,它可以直接给你答案;第二个例子,搜去过哈佛大学的人,它同样可以给你答案;
这就是在社交网络里面的应用。
再看另外一个例子,这个例子更加复杂。
如果你去搜喜欢哈佛大学,喜欢篮球并且在Facebook工作的人,这其实是一个比较复杂的搜索,或者我们可以把它看作一个问答,这也是知识图谱能够给我们带来的改变,也就是你搜的时候直接能够给你答案。
以上是在通用知识图谱或者社交网络中有这些应用,在行业中也有类似的使用知识图谱技术的产品。
比如金融领域的问财,如果在里面搜“万科A”,它就会很明确的告诉你,搜索的是一个股票,股票最关注的就是它最近的波动,问财会自动的把万科A最近股价波动的曲线给展示出来,同时还会告诉你万科A是房地产行业的,并且在右下方推荐房地产相关行业
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。