赞
踩
目录
对现有知识进行表示和建模是构建知识图谱的基础和准备工作,也是完整构建有价值的知识图谱的前提。
真实世界中知识的抽象替代:人类处于婴儿阶段,需要对外界进行学习和认知,只有将外界实物转化成大脑中的一种抽象的表示,才可以真正学习到这个知识。计算机也是一样,我们希望计算机能够学习到真实世界的知识,就需要在计算机中建立抽象替代。然而这会引起一个问题,即对现实世界的知识进行抽象表示无法完全做到无损。
本体论的集合:本体论将真实世界中的概念和实体抽象成类和对象,在某种程度上达到了与知识表示相同的目的,其优势在于使用者可以只关注自己想要关注的重点并仅对其进行抽象和表示,避免了知识表示作为真实世界抽象替代无法做到无损的问题。关注事务的重点,是因为在真实世界中的事物包含的信息量过大,而系统必须关注对其有用的信息。
不完整的智能推理理论:最初知识的概念和表示的产生都是由于智能体需要进行推理而驱使的。认知能力对判断一个物体是否智能起着至关重要的作用,而拥有认知能力即代表智能体可以储存知识,并使用其进行推理后得到新的知识。但仅仅存在知识的表示理论是不够的,需要配合推理方法等其他理论形成完整的推理理论,所以知识表示可以看作一个不完整的智能推理理论。
高效计算的媒介:单纯从计算机的角度来看,计算机中的推理是一种计算过程。如果想到得到推理结果,必须对已有的表示进行高效的计算,而知识表示抽象整合了真实世界当中的知识,在推理时可以对知识进行直接利用,达到高效计算的目的。
知识的中间体:根据字面意思,知识代表我们对真实世界的描述,人类可以将已有的知识作为中间体来传播和表达知识(向人类或者机器)。比如书本是人类传播知识和描述知识的中间体。
综合上述的五种角色,我们可以将知识表示理解成对真实世界的一种不完整的抽象描述,只包含人类或计算机想要关注的方面,同时也可以把它作为计算和推理的中间件。
描述逻辑是指一系列基于逻辑知识形式化的表示方法,这些表示方法能够以一种结构化的、易于理解的方式对知识进行表示和推理。
①描述逻辑建立在概念和关系之上,概念指的是知识图谱中的类和实体,关系指的是实体之间的关系。
②描述逻辑是一阶谓词逻辑的一个可判定子集,可以通过推理的方法基于原子概念对其他概念进行表示和描述。
③描述逻辑包含两类知识:术语知识(TBox)、断言知识(ABox)
术语知识:主要指领域知识中的类、属性和关系。例如公司、地点等元素可以作为领域知识中的类。
断言知识:指与实例有关的知识。例如<小米公司,法定代表人,雷军>即可作为一个断言知识。
④在描述逻辑中,概念(Concept)表示类和实体,角色(Role)表示性质,个体(Individual)表示概念断言和常数,运算符(Operator)用于构建概念或角色的复杂表达。例如,雷军=小米公司∩董事长,就是使用描述逻辑表示的最简单的一条知识。
⑤描述逻辑作为知识表示和知识建模的基础,被多种描述语言和描述框架所使用。
根据W3C标准,通常使用资源描述框架(RDF)及网络本体语言(OWL)对知识进行描述,且两者都使用可扩展标记语言(XML)作为核心语法。
①XML
一种格式整齐、易于使用和扩展的标记语言,允许使用者创建独一无二的标签来描述内容。
其主要任务是以纯文本格式存储和交换数据,独立于软件和硬件,方便传输和共享数据。
XML不是一种知识表示语言,但它的核心语法能够被迁移到多种描述语言中,包括RDF和OWL。
XML主要结构是一种树形结构,文档开头都需要添加XML的序言,必须包含根元素<NOTE>,字符大小写敏感,命名不能以数字或标签开头。
②RDF
开发RDF的目的是为了web提供元数据模型和开放信息模型,即希望开发一种框架,用于描述和表示“描述数据的数据”的元数据,并通过组合多个应用程序的数据来获取新信息,以允许软件自动处理web中的有效信息。
RDF允许在不同应用程序之间公开和共享结构化和半结构化数据。
RDF是语义网与本体等结构的基础层。
RDF的核心语法是XML,需要加入XML序言,还需要指定语法的命名空间和基链接(即xml:base)。
基链接可以是一个IRI,在指定基链接后,在该RDF文件中定义的所有实体都可以在基链接的基础上进行扩展并唯一标识。
若定义主语的宾语节点为空,对于RDF语法而言也是合法的。
相对于XML要求的严格树形结构,RDF使用了更加简单且接近自然语言的三元组形式,语义信息相对明确,可以更好地对知识进行表示和对元数据进行描述,也更容易理解。
③OWL
OWL是W3C Web本体工作组设计的一种基于计算逻辑的知识表示语言,旨在对特定领域的知识进行表示、交换和推理,经常被用于对本体知识进行表示。
知识表示方法对比
知识表示方法 特点 XML 格式整齐,扩展性强,知识表示的核心语法 RDF 三元组形式,可读性强 OWL 本体描述语言,结构清晰
在了解知识表示方法的基础上,需要更进一步明确采用什么样的建模方法对知识进行建模。
知识建模:是指建立计算机可解释的知识模型的过程,这些模型可以是一些通用领域的知识模型,也可以是对于某种产品的解释或规范。其重点在于需要建立一个计算机可存储并且可解释的知识模型,通常使用知识表示方法来存储和表示。
1)知识获取:根据系统要求,从多个来源(主要包括以web数据为数据源、以专家知识为数据源)使用不同方法获取知识,然后对获取到的知识进行判别并分类保存。
①首先需要明确建立知识模型的目的,根据目的来确定其中的知识所覆盖的领域与范围。如覆盖的领域和范围过大,可通过对子领域进行建模再集成的方式来完成目标。在选择领域和覆盖范围时,要尽可能选择整体知识结构相对稳定的领域,因为一个不稳定的领域会造成大量数据的删减和重构,增加知识模型的维护成本,同时降低构建的效率。
②以web获取数据的核心在于使用增量方法针对特定领域不断自动获取相关数据,通常会在不同领域确定关键词,并基于这些关键词对大量网站进行分析,得到需要的知识。
③通过人类专家获取数据主要方式包括但不限于由知识工程师手动输入知识到计算机,或对领域专家进行采访。
④经过以上步骤,得到的信息更多的是非结构化或半结构化的信息。
2)知识结构化:使用不同方法(比如基于本体的建模方法)对非结构化的知识进行表示和存储,以达到建模的目的,然后通过已经建立的知识库,实现知识建模后的标准化和规范化。
①核心目标是将非结构化的数据结构化,并用计算机可读的知识表示方法进行表示。
②任务分为两部分:知识抽取、知识结构化的表示
知识抽取:对半结构化或非结构化的知识(通常为自然语言或接近自然语言)进行抽取,并为后续的知识表示提供便利。
知识结构化的表示:将知识抽取得到的结构化数据转换成计算机可读的形式。常见做法是构建本体,并将知识保存为RDF或OWL文件。
③在本体构建方面比较经典的方法包括METHONTOLOGY法、七步法。
步骤 | 任务 | 重要性 | 输出 |
第一步 | 确定建立本体的目的,包括本体的与其用户、使用场景及本体涉及的范围等要素。 | 从多个维度确定了构建本体的条件与前提。 | 一个描述本体规范的文档,其规范可以是任何形式,包括正式或非正式,可以使用自然语言描述。 |
第二步 | 需要进行知识获取,可以和第一步同时进行。 | 尽可能多地获取数据。 | 根据第一步文档筛选出对本体构建至关重要的数据。 |
第三步 | 对本体进行概念化。 | 目的是组织和结构化外部源获取到的知识。 | 根据第一步指定的规范,进一步对获取到的外部只是进行抽象和汇总,提取出概念、类、关系等抽象关系作为知识的中间表示,可以使用基于表格或图形的方法对这些中间表示进行存储和展现。 |
第四步 | 尽可能集成已有本体。 | 为了使当前构建的本体与其他本体融合与共享。 | |
第五步 | 使用形式化语言进行表示。 | 输出可以被计算机理解和存储的文档。 | 例如RDF文件或者OWL文件等 |
第六步 | 对构建好的本体进行评估 | 识别本体中存在的冗余、不完备与不一致,以便于对本体进行优化来提高本体质量。 | |
第七步 | 将构建本体的过程文档化。 | 可以对整个本体构建过程进行反思与复盘,以便在后续需要维护时快速进入本体的下一个生命周期。 | 将上述每一步的成果整理成文档并保存。 |
知识抽取是指从不同来源、不同结构的数据中,利用实体抽取、关系抽取、事件抽取等抽取知识的技术。
数据分为结构化数据、半结构化数据和非结构化数据三类:
结构化数据的抽取: 结构化数据分为关系数据库和链接数据。
关系数据库可采用标准化方法,如直接映射和R2RML,将其映射成RDF格式数据,其难点在于对复杂表数据的处理,如嵌套表。
直接映射:通过编写启发式规则,把关系数据库中的表转化为RDF格式三元组,表中每一行转换成一个RDF资源,字段成为类的属性。
R2RML:把关系数据库数据映射到RDF数据的语言,可以定制映射。分为三元组映射(包含图映射)、主语映射、谓语宾语映射(谓语映射、宾语映射和引用宾语映射)。
针对链接数据,需要从中(已有的通用知识图谱)抽取出一个子集,形成领域知识图谱,其难点在于数据对齐问题,主要实现方法是图映射,即将通用知识图谱映射到定义好的领域知识图谱模式上。
半结构化数据的抽取:分为百科类数据和普通网页数据。
百科类数据已有成熟的知识图谱,如DBpedia抽取了维基百科的知识,Zhishi.me融合了百度百科、互动百科和中文版维基百科页面的知识。
普通网页数据通用抽取方法是包装器。
包装器:一类能够将数据从HTML网页中抽取出来,并将其还原成结构化数据的技术。实现方法有三种,手工方法、包装器归纳和自动抽取。
包装器归纳:一种监督学习方法,可以从已标注的数据集中学习抽取规则,应用于具有相同标记或者相同网页模板的数据抽取。
自动抽取:先对一批网页进行聚类,得到具有相似结构的若干个聚类群,再针对每个群分别训练一个包装器,其他的带抽取网页经过包装器后会输出结构化数据。
非结构化数据的抽取:典型的由文本、图片、音频、视频等,占据着互联网数据的绝大部分。
信息抽取:从文本这类非结构化数据中抽取知识。与知识抽取的区别在于信息抽取专注于非结构化数据,而知识抽取面向所有类别的数据。
文体信息抽取由三个子任务构成,实体抽取(产生的实体便是结点)、关系抽取(产生的关系是结点之间的连接边)、事件抽取。
介绍文本信息抽取三个子任务所用到的相关技术。
实体抽取:
抽取文本中的原子信息,形成实体结点。可选择的模型包括隐马尔可夫模型(HMM),条件随机场(CRF)模型、神经网络模型等,目前流行的方法是将传统的机器学习与深度学习相结合,如利用长短期记忆(LSTM)模型进行特征自动提取,再结合CRF模型,利用模型各自的优势,以达到更好的抽取效果。
①基于规则和词典的抽取方法:
1)基于规则:一般由领域专家或语言学家手工编写抽取规则,特征可包括词形特征、词性特征、词所属的类别特征等,有较高的精度,但召回率偏低,规则的扩展性和移植性较差,对专家要求高,成本也高。
2)基于实体词典:采用字符串匹配的方法抽取实体,匹配规则包括基于正向最大匹配方法、基于逆向最大匹配方法等。受词典大小和质量影响,准确率较高,无法做新词发现,通用域的实体繁多,难以构建完备的实体词典库。配合抽取规则,适合于特定领域的实体抽取。
②基于统计学习的抽取方法:
鉴于实体抽取问题可以看作是一种序列标注问题,使用特定的标注规范,对文本中的每个字标注序列标签。可选择的模型:隐马尔可夫模型(HMM),条件随机场(CRF)模型等
隐马尔可夫模型(HMM):一种有向图模型,由一个隐藏的马尔科夫链随机生成隐藏的状态随机序列(每个字对应的标注),再由各个状态生成一个可观察的状态随机序列(由字组成的序列)。通过最大似然估计方法估计模型三要素。对给定的预测数据,输出每个字对应的标注。模型的训练和识别速度较快,但模型认定观测到的句子中的每个字都相互独立,所以预测效果相对较差。
模型有三要素:
条件随机场(CRF)模型:给定一组输入随机变量条件下另一组输出随机变量的条件概率分布模型,适用于序列标注问题。模型假设当前的观测序列与前后多个状态相关,能够获取更多特征。给定模型训练数据,CRF可为实体抽取提供一个特征灵活、全局最优的标注框架,但也存在收敛速度慢、训练时间长等问题。
③混合抽取方法:
LSTM-CRF模型:Word Embedding层、Bi-LSTM层、CRF层
层数(从下往上流通) | 作用 |
CRF层 | 对Bi-LSTM层提取到的特征及标签信息建模,并对句子中的实体做序列标注。 |
Bi-LSTM层 | 可以提取和利用词的上下文信息,是字符级别的特征。接收到向量后,将正向LSTM生成的向量和反向LSTM生成的向量进行拼接,得到每个词的向量形式,并将结果输入CRF层。 |
Word Embedding层 | 通过预训练或随机初始化生成句子中的每个词的向量表示。 |
关系抽取:
关系抽取:指从文本中抽取两个或者多个实体之间的语义关系。
①基于规则的抽取方法:准确度较高,覆盖率较低,维护和移植相对困难,抽取模板的编写需要投入较多的人力和专家知识。目前有两种抽取方法是基于触发关键词的关系抽取方法、基于依存句法分析的关系抽取方法。
②监督学习法:通过部分标注数据,训练一个关系抽取器。标注数据需要同时包含关系以及相关实体对。可以看成一个分类器的问题,先训练一个二分类器用于判断一段文本中提及的实体是否存在关系,再训练一个多分类器用于判定实体对之间的具体关系。缺点是特征构建较为困难,难以获取大量的标签数据,而训练数据集的大小和质量决定了监督学习的效果。
③半监督学习法:基于种子数据的启发式算法、远程监督学习方法。
基于种子数据的启发式算法:准备一批高质量的三元组结构数据为基础,去匹配语料库中的文本数据,找出提及实体对和关系的候选文本的集合,对其进行语义分析,找出一些支持关系成立的强特征,并通过这些强特征去语料库中发现更多的实例,加入种子数据中,再通过新发现的实例挖掘新的特征,重复以上步骤直到达到阈值。
远程监督学习法:目的是在短时间内产生大量的训练数据,该方法利用已有的知识库对未知的数据进行标注假设知识库中的两个实体存在某种关系,远程监督方法会假设包含着两个实体的数据都描述了这种关系,但实际上,很多文本中的候选实体对并不包含该关系,此时可以通过人工构建先验知识缩小数据集范围,也可以引入注意力机制对候选文本赋予不同权重,最后从候选文本中抽取特征,训练关系抽取的分类器,并与监督学习结合进行关系抽取。
事件抽取:
事件抽取指的是从自然语言中抽取出用户感兴趣的事件信息,并以结构化的形式存储,目前在自动问答、自动文摘、信息检索领域应用较为广泛。
事件结构:通常包含时间、地点、参与角色等属性信息。
事件抽取任务:事件发现、识别事件触发词及事件类型、事件元素抽取,抽取事件元素并判断元素扮演的角色、抽取描述时间的词组或句子。
根据事件定义,事件抽取任务可分为元事件抽取和主题事件抽取:
①元事件抽取:
元事件表示一个动作的发生或者是状态的改变往往是由动词或者其他表示动作的名词或其他词性的词触发,由参与该动作的主要成分构成,如人物、时间、地点等。
元事件抽取主要有模式匹配和机器学习两种方法:
模式匹配:在模式指导下识别和抽取事件,关键在于抽取模式的构建。
基于机器学习的元事件抽取将抽取任务转化为一个多阶段的分类问题,每个阶段需要训练一个分类器,文本数据按照顺序进入各分类器,最后输出事件实例,核心在于分类器的构造以及特征的选择。
②主题事件抽取:有多个动作或状态组成,分散在多个句子或文档中,关键在于如何识别描述同一个主题的文档集合,并将其归并在一起。主题事件抽取分为基于事件框架的主题事件抽取和基于本体的主题事件抽取。
基于事件框架的主题事件抽取:需要定义一个层次分明的框架,关键是框架的科学定义。框架的每一层代表事件的一个方面,如时间、地点等,通过框架来概括事件信息。
基于本体的主题事件抽取:本体是形式化的、对于共享概念体系的明确而又详细的说明,目标是获取领域知识,形成领域知识的共同理解。该技术需要根据本体描述的概念、关系、层次结构和实例,抽取文本中包含的事件信息。主要分为三个步骤:领域本体构建,基于领域本体的文本内容的自动标注以及基于语义标注的事件抽取。
知识挖掘是指从文本或者知识库中挖掘新的实体或实体关系,并于已有的知识相关联的过程。分为实体链接与消歧、知识的规则挖掘两个部分。
基本流程:实体指称(在具体上下文出现的待消歧实体名)识别、候选实体生成和候选实体排序。
①实体指称识别:与知识抽取中的实体抽取相同。
②候选实体生成:根据实体指称生成可能链接的候选实体集合,三种方法分别是基于实体指称字典的生成方法、基于搜索引擎的生成方法、基于实体指称表面扩展的生成方法
基于实体指称字典的生成方法:目前候选实体生成的主要方法,被大多数实体链接系统所采用,一张完整的字典映射表可以获得实体指称的所有候选实体。
基于搜索引擎的生成方法:通过搜索引擎搜索web信息来识别候选实体,返回前N个结果,包含维基百科页面或者百度百科页面的搜索结果。
基于实体指称表面扩展的生成方法:由于某些实体指称是首字母缩略词或其全名的一部分,因此可以使用表面扩展技术提取出可能的候选实体。
③候选实体排序:生成候选实体集合后,需要对其进行排序,筛选出实体指称真正指代的实体。排序方法按照时候需要标注数据可分为基于监督学习排序(基于二分类模型的方法、基于排序模型的方法、基于图的方法)和无监督学习排序(基于向量空间模型的方法、基于信息检索的方法)。
基于二分类模型的方法:将候选实体的排序问题转化为二分类问题,通过训练一个二元分类器确定实体指称是否指向候选实体,可选用支持向量机模型、朴素贝叶斯模型等。
基于排序模型的方法:利用学习排序框架对候选实体排序,统一处理同一个实体指称的所有候选实体,并构建排序模型。
基于图的方法:使用了基于图的协同实体链接模型,该模型会综合考虑实体的重要程度、文本上下文相似度以及映射实体之间的一致性以建立实体指称与候选实体之间的图模型。
基于向量空间模型的方法:根据文本表层信息度量相似度,考虑实体指称上下文和候选实体上下文,将实体指称和候选实体用向量形式表示,并计算它们的相似度再排序。
基于信息检索的方法:每个候选实体可作为被索引的独立文档,针对实体指称,从实体指称本身以及上下文中生成搜索查询。
知识规则挖掘是对知识结构的挖掘,可以针对现有的知识体系,利用部分规则,挖掘出新的知识,如挖掘出新的实体、关联关系等。知识规则挖掘分为基于关联规则的挖掘和基于统计关系学习的挖掘。
基于关联规则的挖掘:形如X->Y的蕴含表达式,其中X和Y是不相交的两个项集,其强度可以用支持度和置信度来衡量。目的是挖掘知识库中类别与类别之间的某种潜在联系,所发现的联系可以用关联规则或者频繁项集来表示。具体是从知识库中找出所有的频繁项集,从中挖掘出关联规则,当规则的支持度和置信度均满足阈值,就可以认定该规则是强相关规则。
X->Y的支持度:集合X和集合Y的项同时出现的个数与总个数的比值。
X->Y的置信度:集合X和集合Y的项同时出现的个数与集合X个数的比值。
基于统计关系学习的挖掘:利用知识库中已知的三元组,通过统计关系学习,对未知三元组成立的可能性进行预测可用于完善现有的知识图谱。该方法输入已知的实体集合、关系集合和三元组集合,带预测的实体对,给定关系,输出为目标实体对在给定关系下成立三元组的置信度,当预测的三元组置信度超过设定的阈值时,就可以认为关系成立,生成新的三元组。
知识存储是考虑业务场景及数据规模等条件,选择合适的存储方式,将结构化的知识存储在相应数据库的过程,他能实现对数据的有效管理和计算。按照存储结构可将知识存储分为基于表结构的知识存储和基于图结构的知识存储。
指将知识图谱中的数据存储在二维的数据表中,根据表的不同设计原则,分为关系数据库、三元组表和类型表。
①关系数据库表:表中的每一列称为一个属性或字段,每一行表示一个元组,由一个实体的相关属性的取值构成,可相对完整的描述这个实体。
②三元组表:以资源描述框架三元组为单位进行存储,三元组表分为三列,分别代表Subject、Predicate、Object,每一行代表一组三元组信息,为(实体,关系,实体)或(实体,属性,属性值)。该存储方式直接简单,扩展性强,但是由于图谱数据全部存储在一张表中,查询、修改、删除等操作的开销较大。
③类型表:在构建数据表时,考虑了知识图谱的类别体系。每个类型的数据表只记录属于该类型的特有属性,而不同类别的公共属性则保存在上一级类别对应的数据表中,下级表继承了上级表的所有属性。
利用图数据库对知识图谱中的数据进行存储。
图数据库是一个使用图结构进行语义查询的数据库,数据模型主要是以节点和边来体现,也可以处理键值对,优点是可以简单快速检索难以建模的包含复杂层次结构的数据。
语义查询指允许进行关联和上下文性质的查询和分析,可以利用数据库中包含的语法、语义和结构信息来检索显示和隐式派生的信息。
图数据库分类:
①资源描述框架
②属性图
③超图
图数据库介绍:
①Neo4j:一个开源的图数据库,目前最受欢迎的图数据库。将结构化数据存储在图上而不是表上,使用Cypher语言查询,基于Java实现。
②OrientDB:开源的NoSQL数据库管理系统,基于Java实现,是一个多模型数据库。
③HyperGraphDB:可用于通用环境下的强大存储系统,依托BerkeleyDB数据库的开源存储系统,相较于其他图数据库具有更强大的数据建模和知识表示能力。
知识融合是通过高层次的知识组织,使来自不同知识源的知识在同一框架规范下进行异构数据整合、消歧、加工、推理验证、更新等步骤,达到数据、信息、方法、经验以及人的思想的融合,形成高质量的知识库。
跨语言知识融合是指将不同语言体系的知识融合到一个数据库中。可以提高不同语言之间链接数据的国际化以及实现世界范围内的知识共享。
知识融合分为概念层知识融合(研究本体匹配、跨语言融合等技术)和数据层知识融合(研究实体对齐)。
当存在多个知识源时,每个知识源可能使用不同的分类体系和属性体系,概念层融合就是将这些不同的分类体系和属性体系统一为一个全局的体系。
本位匹配是概念层知识融合的主要任务之一。本位匹配是指建立来自不同本体的实体之间的关系,这些关系可以是实体间的相似值、模糊关系等。
按照匹配粒度划分,本体匹配可分为元素层匹配方法和结构层匹配方法。
按照本体特征划分,本体匹配分为基于文本的方法、基于结构的方法、基于实例的方法、基于背景知识的方法以及逻辑推理的方法。
①基于文本的方法:通过抽取两个本体的描述信息,通过计算相似度衡量两个本体是否匹配。根据相似度的计算对象不同可分为基于名称的方法(通过计算名称在词形或词义上的相似度来匹配本体)和基于文档的方法(把概念的描述信息看作一份“文档”,通过计算“文档”之间的相似度来匹配本体。
②基于结构的方法:为了弥补当前本体信息不够的问题,利用本体概念间的结构信息来发现匹配,结构信息包括概念的上下位、同为相邻结点等信息。
③基于实例的方法:实例是本体概念的具体表现形式,基于实例的本体匹配方法旨在计算本体相似度时利用本体概念的实例作为相似度衡量的依据,相似度越高,本体之间就越匹配。
④基于背景知识的方法:通过查询外部资源发现匹配的本体,提高匹配精度,可以参考的外部资源包括通用词典、专业术语表、搜索引擎、维基百科等。
⑤基于逻辑推理的方法:本位网络包含丰富的语义知识,通过对这些语义知识进行逻辑推理,可以发现未匹配的本体,也可以对初步匹配的本体做逻辑上的推断,剔除不一致的匹配项,提高匹配的准确性。
1)实体对齐
实体对齐,也称实体匹配或者实体解析,是判断相同或者不同数据集中两个实体是否指向真实世界中的同一对象的过程。
在算法层面,可以分为只考虑实例及其属性相似程度的成对实体对齐,以及在成对对齐的基础上,考虑不同实例之间相互关系,计算相似度的集体实体对齐两类。
①成对实体对齐:
基于概率模型的成对实体对齐方法:不考虑实体间关系,只考虑实体属性之间的相似性。通过赋予不同属性不同的权重,基于属性相似度打分判断实体的匹配程度,将实体对齐问题转换成一个分类问题。
基于机器学习的成对实体对齐方法:将实体对齐问题看作是一个二分类问题,根据是否使用标注数据又可分为监督学习方法(通过标注数据抽取特征,训练分类模型)和无监督学习方法(使用聚类算法)。
②集体实体对齐:
基于相似性传播的集体实体对齐方法:首先选取两个匹配的实体,根据相似度传播算法假设与这两个实体相连的具有相似命名的实体也具有较高的相似度,实体之间的相似性可以不断传播,直至算法收敛或者达到设定的阈值。
基于概率模型的集体实体对齐方法:使用统计关系学习进行计算和推理,通过集成关系/逻辑表示、概率推理、不确定性处理、机器学习和数据挖掘等方法获取关系数据中的似然模型。
2)数据融合工具介绍
①Falcon-AO:一个实用的自动化本体匹配工具,基于Java语言实现,可以对输入的两个web本体自动匹配,并找出这两个本体对应的实体之间的映射关系。
②XLORE:聚力两大中文百科,中英文平衡的图谱;更丰富的语义关系,基于isA关系验证;提供多种查询接口,应用更加方便。
③Dedupe:用于模糊匹配、重复记录删除和实体解析的python库,基于自主学习的方法,训练一个Active Learning模型。
主要目的是根据某些条件或关键词,通过对知识图谱进行查询,返回相关信息。
查询语言通常至少包括两个子集:数据定义语言和数据操作语言。其中数据定义语言用于对数据库中的项目进行创建、修改和删除,数据操作语言用于查询和更新数据表中的数据。数据查询语句可以用于在存储了知识图谱的图数据库中检索需要的信息,即完成对知识的检索。
目前常见的、有代表性的查询语言有SPARQL,Cypher和Gremin.
语义搜索是在基于查询语言的知识检索的基础上更进一步发展的产物,其本质是通过数学方法来摆脱传统搜索方法中的近似和不精确,并且为词语的含义以及这些词如何与输入的词语进行关联找到一种清晰的理解方式。
语义搜索可以分为轻量级的基于语义的信息检索系统和相对复杂的语义搜索系统。
轻量级信息检索只使用词典或分类器这样简单的模型,将语义数据与待检索的数据相关联。而相对复杂的语义搜索系统通常需要使用知识图谱或者本体等方法对语义和知识进行显示建模。
常见的语义搜索方法主要包括关键词查询和自然语言查询等。
关键字查询的主要问题是如何构建索引,对于指定的关键字,首先需要按照索引在知识图谱中找到符合关键字定义的子图,这样可以大大减少整体搜索空间,在子图中进行检索,最终找到检索结果。
自然语言查询需要系统对使用者输入的自然语言进行抽取和挖掘,在向量化后再与知识图谱中的信息的向量化表示进行比较。
常见的完全基于规则的推理包括类别推理与属性推理;
类别推理:需要针对尸体的所属类别进行推理,通常适用于在知识图谱的逻辑结构中层次较低的实体的分类。
属性推理是指根据关系的域和范围来进行推理。
随着深度学习的发展,基于表示学习的推理与基于深度学习的推理更具有优势。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。