赞
踩
《知识 图谱:概念技术》一书读书笔记1。
基本事实,如(柏拉图,出生地,雅典) 。事实知识是知识图谱中最常见的
知识类型。大部分事实都是在描述实体的特定属性或者关系,比如上例中的
“出生地”属性。需要说明的是,有些实体的相关事实未必存在典型的属性
或者关系与之对应,只能通过复杂的文本来描述。比如,"亚里士多德是西
方古典哲学的集大成者”这一事实很难找到明确的属性加以陈述。再比如,
在“柏拉图继承和发展了苏格拉底的哲学思想”这一事实中,显然柏拉图与
苏格拉底之间是有关系的,但这类关系无法简单陈述。很多以实体为中心组
织的知识图谱均富含事实知识,比如DBpedia 、Freebase 以及CN-DBpedia
等。本书第6 章将介绍这类知识图谱的构建。
(2 ) 概念知识( Taxonomy Knowledge ) 。概念知识分为两类: 一类是实
体与概念之间的类属关系。sA 关系〉,如(柏拉图isA 哲学家);另一类是
子概念与父概念之间的子类关系( subclassOO ,如(唯心主义哲学家
subclass Of 哲学家) 。一个概念可能有子概念也可能有父概念,这使得全体
概念构成层级体系。概念之间的层级关系是本体定义中最重要的部分,是构
建知识图谱的第一步一一模式设计的重要内容。特定领域的概念知识是机器
认知领域的基本框架。典型的概念知识图谱(有时简称“概念图谱”)包括
YAGO 、Probase 、WikiTaxonomy 等。本书第5 章将介绍这类知识图谱的构
建。
(3 ) 词汇知识( Lexical Knowledge )。词汇知识主要包括实体与词汇之
间的关系(比如,实体的命名、称谓、英文名等)以及词汇之间的关系(包
括同义关系、反义关系、缩略词关系、上下位词关系等)。例如,
(“ Plato ”,中文名,柏拉图)、(赵匡j鼠,远号,宋太祖〉、(妻子, 同义,老
婆)。一些跨语言知识库(比如Bab elNet )专注于建立实体和概念在不同语
言中的描述形式。词汇知识是知识图谱目前在实际应用中已经取得较好效果
的一类知识。因为领域语料往往是丰富的,所以从这些语料中自动挖掘领域
词汇,建立词汇之间的语义关联以及词汇与实体之间的关联, 已经成为构建
知识图谱最重要的一步。领域词汇知识也是相对简单的知识,人类学习某个
领域往往是从该领域的词汇开始学习的。因此, 让机器认知领域词汇是实现
机器认知整个领域知识的第一步。典型的此类知识图谱有WordNet。本书第
3 章将介绍词汇知识的挖掘。
( 4 ) 常识知识C Commonsense Knowledge )。常识是人类通过身体与世
界交互而积累的经验与知识,是人们在交流时无须言明就能理解的知识。例
如,我们都知道鸟有翅膀、鸟能飞等。再比如,如果X 是一个人,那么X
要么是男人要么是女人。常识知识的获取是构建知识图谱时的一大难点。常
识的表征与定义、常识的获取与理解等问题一直都是人工智能发展的瓶颈问
题。常识知识的基本特点是,每个人都知道,所以很少出现在文本里。面向
文本的信息抽取方法对于常识获取显得无能为力。典型的常识知识图谱包括
Cyc 、ConceptNet 等。
除了上述分类,还有一些知识图谱侧重知识表示的不同维度。首先,很
多事实的成立是有时空条件的。有些知识的存在是有时间限制的,必须为这
些知识加上时间维度。例如,(奥巴马,职业,美国总统, 2009-1 -20 , 2017-
01-20 )这个五元组表示“奥巴马是美国总统”这一事实从2009 年1 月20
日开始生效,直至2017 年1 月20 日失效。再比如, 在表达某一天的温度
时. ' (2 019-1-1 ,平均温度, 16 ℃,上海)和( 2019-1 - 1 ,平均温度,一5 ℃,
北京)这两个四元组就分别表示了2019 年1 月1 日这一天上海与北京两地
不同的温度。其次, 一些知识含有主观性因素。比如,对于汉堡是否是健康
的食品这一问题,不同人的认识是不同的。再次,有些知识关注实体的多模
态表示。比如, (柏拉图,图片, plato.jpg ) 表达了柏拉图的适用图片。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。