赞
踩
从逻辑上将知识图谱划分为2个层次:数据层和模式层
知识以事实(fact)为单位存储在图数据库,通常以“实体-关系-实体”或者“实体-属性-值”三元组作为事实(fact)的基本表达方式。存储在图数据库中的所有数据将构成庞大的实体关系网络,形成知识的“图谱”。
模式层在数据层之上,是知识图谱的核心。在模式层存储的是经过提炼的知识,通常采用本体库来管理知识图谱的模式层,借助本体库对公理、规则和约束条件的支持能力来规范实体、关系以及实体的类型和属性等对象之间的联系。
知识图谱的构建过程是从原始数据出发,采用一系列自动或半自动的技术手段,从原始数据中提取出知识要素(即事实),并将其存入知识库的数据层和模式层的过程。知识图谱有自顶向下和自底向上2种构建方式:
本文主要介绍自底向上的知识图谱构建技术,按照知识获取的过程分为三个层次:信息抽取、知识融合以及知识加工。这是一个迭代更新的过程,每一轮迭代都包含这三个阶段。
也称命名实体名称(NER),指从文本数据集中自动识别出命名实体。实体抽取的质量(准确率和召回率)对后续的知识获取效率和质量影响极大,是信息抽取中最为基础和关键的部分。主要方法包括基于规则的方法、统计机器学习方法、以及面向开放域的信息抽取等。
文本语料经过实体抽取,得到的是一系列离散的命名实体,为了得到语义信息,还需要从相关语料中提取出实体之间的关联关系,通过关系将实体(概念)联系起来,才能够形成网状的知识结构。主要方法包括人工构造语法和语义规则、统计机器学习、以及面向开放域的关系抽取技术等。
属性抽取的目标是从不同信息源中采集特定实体的属性信息,例如针对某个公众人物,可以从网络公开信息中得到其昵称、生日、国籍、教育背景等信息。属性抽取技术能够从多种数据来源中汇集这些信息,实现对实体属性的完整勾画。
指对于从文本中抽取得到的实体对象,将其链接到知识库中对应的正确实体对象的操作。基本思想是首先根据给定的实体指称项,从知识库中选出一组候选实体对象,然后通过相似度计算将指称项链接到正确的实体对象。
一般流程是:1)从文本中通过实体抽取得到实体指称项;2)进行实体消歧和共指消解,判断知识库中的同名实体与之是否代表不同的含义以及知识库中是否存在其他命名实体与之表示相同的含义;3)在确认知识库中对应的正确实体对象之后,将该实体指称项链接到知识库中对应实体。
在构建知识图谱时,可以从第三方知识库产品或已有结构化数据获取知识输入。例如,关联开放数据项目(linked open data)会定期发布其经过积累和整理的语义知识数据。
所解决的问题:通过信息抽取,可以从原始语料中提取出实体、关系与属性等知识要素。再经过知识融合,可以消除实体指称项与实体对象之间的歧义,得到一系列基本的事实表达。然而,事实本身并不等于知识,要想最终获得结构化、网络化的知识体系,还需要经历知识加工的过程。
涉及的关键技术:本体构建、知识推理、质量评估等。
本体(ontology)是对概念进行建模的规范,是描述客观世界的抽象模型,以形式化方式对概念及其之间的联系给出明确定义。本体是树状结构,相邻层次的节点(概念)之间具有严格的“IsA”关系,这种单纯的关系有助于知识推理,但不利于表达概念的多样性。
在知识图谱中,本体位于模式层,用于描述概念层次体系,是知识库中知识的概念模板。本体构建的方法有:
1)手动构建:采用人工编辑的方式手动构建(借助本体编辑软件);
2)自动构建:采用计算机辅助,以数据驱动的方式自动构建,然后采用算法评估和人工审核相结合的方式加以修正和确认。自动化本体构建过程包含3个阶段:实体并列关系相似度计算、实体上下位关系抽取以及本体的生成。
当前主流的全局本体库产品,都是从一些面向特定领域的现有本体库出发,采用自动构建技术逐步扩展得到的。
知识推理是指从知识库中已有的实体关系数据出发,经过计算机推理,建立实体间的新关联,从而拓展和丰富知识网络。例如已知(乾隆,父亲,雍正)和(雍正,父亲,康熙),可以得到(乾隆,祖父,康熙)或(康熙,孙子,乾隆)。知识推理的对象并不局限于实体间的关系,也可以是实体的属性值、本体的概念层次关系等。知识的推理方法可以分为2大类:基于逻辑的推理和基于图的推理。
1)基于逻辑的推理
2)基于图的推理
引入质量评估的意义在于:对知识的可信度进行量化,通过舍弃置信度较低的知识,保障知识库的质量。
2.5 知识更新
知识图谱的内容需要与时俱进,其构建过程是一个不断迭代更新的过程。
1)更新的内容
从逻辑上看,知识库的更新包括概念层的更新和数据层的更新。
2)更新的方式
知识图谱的内容更新有2种方式:数据驱动下的全面更新和增量更新。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。