赞
踩
一个菜菜的人要学一学毕设相关的知识了,这篇笔记参考的内容放在这里啦。
什么是知识图谱?有哪些典型应用?终于有人讲明白了 - 知乎 (zhihu.com)
【知识图谱】RDF的初步了解 - 简书 (jianshu.com)
本文用到的截图都在这些文章里。
知识图谱(Knowledge Graph),简称KG。我没有搜到知识图谱的官方定义,欢迎知道的童鞋踩踩。我的理解过程如下。
知识:人类对信息进行处理之后的认识和理解,是对数据和信息的凝炼、总结后的成果。
图:表示一些事物(Object)与另一些事物之间相互连接的结构。
联想一下数据结构里的图就能理解了。
我理解的,知识图谱的作用就是,对于大量无序杂乱的信息,识别出其中的实体及实体属性等,形成一个关系图。如下图所示。
知识图谱就是把所有不同种类的信息连接在一起而得到的一个关系网络。
举个栗子,当我在浏览器中搜索王健林儿子时,浏览器就会显示王思聪的信息,这就利用了知识图谱。
接下来,就是一些官方性的东西了,大概理解一下就好。
知识图谱示意图主要包含三种节点:实体、概念、属性。
实体指的是具有可区别性且独立存在的某种事物。如某一个人、某一座城市、某一种植物、某一件商品 等等。世界万物由具体事物组成,此指实体。实体是知识图谱中的最基本元素,不同的实体间存在不同的关系。
概念指的是具有同种特性的实体构成的集合,如国家、民族、书籍、电脑等。
属性则用于区分概念的特征,不同概念具有不同的属性。不同的属性值类型对应于不同类型属性的边。 如果属性值对应的是概念或实体,则属性描述两个实体之间的关系,称为对象属性;如果属性值是具体 的数值,则称为数据属性。
举个栗子,如下图所示,王健林、王思聪、林更新、张馨予是实体,他们都属于人这个概念,父子、好友、前任是属性。
按照知识图谱应用的深度主要可以分为两大类:
一是通用知识图谱,通俗讲就是大众版,没有特别深的行业知识及专业内容,一般是解决科普类、常识类等问题。
二是行业知识图谱,通俗讲就是专业版,根据对某个行业或细分领域的深入研究而定制的版本,主要是 解决当前行业或细分领域的专业问题。
数据获取是建立知识图谱的第一步。
目前,知识图谱数据源按来源渠道的不同可分为两种:
一种是业务本身的数据,这部分数据通常包含在行业内部数据库表并以结构化的方式存储,是一种非公开或半公开的数据;
另一种是网络上公开、抓取的数据,这些数据通常是以网页的形式存在,是非结构化的数据。
按数据结构的不同,可分为三种:结构化数据、半结构化数据和非结构化数据,根据不同的数据类型, 我们采用不同的方法进行处理。
信息抽取的关键问题是如何从异构数据源中自动抽取信息得到候选知识单元。
如前文所说,知识获取有两种渠道,前者只需要简单预处理即可以作为后续系统的输入,但后者一般需要借助于自然语言处理等技术来提取出结构化信息,这正是信息抽取的难点问题,涉及的关键技术包括实体抽取、关系抽取和属性抽取。
经由信息抽取之后的信息单元间的关系是扁平化的,缺乏层次性和逻辑性,同时存在大量冗余甚至错误的信息碎片。
知识融合,简单理解,就是将多个知识库中的知识进行整合,形成一个知识库的过程,在这个过程中,主要关键技术包含指代消解、实体消歧、实体链接。不同的知识库,收集知识的侧重点不同,对于同一个实体,有的知识库可能侧重于其本身某个方面的描述,有的知识库可能侧重于描述实体与其它实体的关系,知识融合的目的就是将不同知识库对实体的描述进行整合,从而获得实体的完整描述。 知识融合旨在解决如何将关于同一个实体或概念的多源描述信息融合起来。
指代消解:一般情况下,指代分为三种:
(1)回指(也称指示性指代),指的是当前的指代词与上文出现的词、短语或句子(句群)存在密切的语义关联性,它指向另一个词(称为先行词),该指代词的解释依赖于先行词的解释, 具有非对称性和非传递性;例如:小明是一个很爱国的人,他经常参加一些爱国活动。
(2)共指(也称同指),指的是两个名词(包括代名词、名词短语)指向真实世界中的同一参照体,这种指代脱离上下文仍然成立。共指消解技术主要用于解决多个指称对应同一实体对象的问题。例如:中华人民共和国和中国指的都是同一个对象。
(3)下指,和回指刚好相反,指的是指代词的解释取决于指代词之后的某些词、短语或句子 (句群)的解释。
实体消歧:也叫做实体对齐。有些实体写法不一样,但指向同一个实体,比如“New York”表示纽 约,而“NYC”同样也可以表示纽约。实体对齐的目的就是找到指向真实世界同一对象的实体。
实体链接:实体链接(entity linking)是指对于从非结构化数据(如文本)或半结构化数据(如表 格)中抽取得到的实体对象,将其链接到知识库中对应的正确实体对象的操作。其基本思想是首先 根据给定的实体指称项,从知识库中选出一组候选实体对象,然后通过相似度计算将指称项链接到 正确的实体对象。
海量数据在经信息抽取、知识融合之后得到一系列基本的事实表达,但这并不等同于知识,要想获得结构化,网络化的知识体系,还需要经过质量评估之后(部分需要人工参与甄别),才能将合格的部分纳入知识体系中以确保知识库的质量,这就是知识加工的过程。
知识加工主要包括3方面内容:本体构建、 知识推理、质量评估。
本体构建:也叫做概念层构建。本体就是特定领域或根本存在的实体的类型、属性、相互关系的一 个正式的命名和定义。本体定义了组成领域的词汇表的基本术语及其关系,以及结合这些术语和关 系来定义词汇表外延的规则。
知识推理:知识推理就是指从知识库中已有的实体关系数据出发,经过计算机推理,建立实体间的 新关联,从而扩展和丰富知识网络。 例如康熙是雍正的父亲,雍正是乾隆的父亲,那么尽管在知识库中康熙和乾隆这两个实体之间没有直接的联系,通过知识推理,就可以获得他们之间是祖孙关系。 知识推理的对象也并不局限于实体间的关系,也可以是实体的属性值,本体的概念层次关系等。例如,推理属性值:已知某实体的生日属性,可以通过推理得到该实体的年龄属性。
质量评估:质量评估也是知识库构建技术的重要组成部分,这一部分存在的意义在于:可以对知识 的可信度进行量化,通过舍弃置信度较低的知识来保障知识库的质量。
知识图谱主要有两种存储方式:一种是基于RDF的存储;另一种是基于图数据库的存储。它们之间的区别如下图所示。
RDF是什么呢?
RDF(Resource Description Framework),即资源描述框架,其本质是一个数据模型(Data Model)。它提供了一个统一的标准,用于描述实体/资源。简单来说,就是表示事物的一种方法和手段。RDF形式上表示为SPO三元组,即“对象-属性-值”(Subject-Predicate-Object),知识图谱中我们也称其为一条知识,如下图。
RDF一个重要的设计原则是数据的易发布以及共享,图数据库则把重点放在了高效的图查询和搜索上。其次,RDF以三元组的方式来存储数据而且不包含属性信息,但图数据库一般以属性图为基本的表示形式,所以实体和关系可以包含属性,这就意味着更容易表达现实的业务场景。
第一,知识图谱包含了海量的数据,是一个超级知识库,所以我们可以依赖它进行搜索一些内容,由于知识图谱的数据组织方式是计算机能理解的,具有语义,这种搜索可以定义为语义搜索。
第二,对搜索进行延伸,搜索的结果可能会有很多,按照一定的规则排序,如果只取最可能的答案,就变成了问答系统,这也是知识图谱的典型应用。
第三,将知识图谱与其它技术进行结合,可以充分利用知识图谱的知识,比如将用户的个性化特征与知识图谱结合,能够得到个性化推荐系统。
第四,将知识图谱的数据进行深度分析,按照一定的规则进行推断,还可以得到辅助决策。
语义搜索是知识图谱最典型的应用,它首先将用户输入的问句进行解析,找出问句中的实体和关系,理解用户问句的含义,然后在知识图谱中匹配查询语句,找出答案,最后通过一定的形式将结果呈现到用 户面前。
智能问答,就是通过一问一答的形式,用户和具有智能问答系统的机器之间进行交互,就像是两个人进行问答一样,具有智能问答系统的机器就像一个智者一样,为用户提供答案,友好的进行交谈。 智能问答,可以看作是语义搜索的延伸,语义搜索的结果会按照某种规则进行排序,依据一定的算法将最相关的排在前面,我们使用百度、谷歌搜索引擎进行搜索时,结果可能包括很多页,就是语义搜索的常见形式。智能问答,属于一问一答,只要一个答案,也就是将最相关的那个答案反馈给用户,如果像聊天一样,不断地进行问答,回答不仅仅是在知识库中搜索,还要考虑前面的聊天内容。
个性化推荐是根据用户的个性化特征,为用户推荐感兴趣的产品或内容。个性化推荐系统通过收集用户的兴趣偏好、属性,产品的分类、属性、内容等,分析用户之间的社会关系,用户和产品的关联关系,利用个性化算法,推断出用户的喜好和需求,从而为用户推荐感兴趣的产品或者内容。
辅助决策,就是利用知识图谱的知识,对知识进行分析处理,通过一定规则的逻辑推理,得出对于某种 结论,为用户决断提供支持
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。