赞
踩
说明:CAS是国科大的简称,KG是知识图谱的缩写,这个栏目之下是我整理的国科大学习到的知识图谱的相关笔记。
课程目标
教学安排
详情请见博客:CAS-KG——课程安排
首先,知识图谱肯定是属于AI的重要研究方向,所以先来介绍一下人工智能。
人工智能的三个阶段
什么是知识
数据,信息和知识
知识工程:数据和信息 → 知识
知识的类型:陈述性、过程性
陈述性知识:描述客观事物的性状和关系等静态信息,主要分为事物、概念、命题三个层次。
过程性知识:描述问题如何求解等动态信息。
什么是知识库
知识工程
1977年,在第五届国际人工智能会议上,美国斯坦福大学计算机科学家费根鲍姆教授
(E.A.Feigenbaum) 发表特约文章“人工智能的艺术:知识工程课题及实例研究”,系统地阐述了“专家系统”的思想,并提出了“知识工程”的概念,确定了知识在人工智能中的重
要地位。
依赖专家构建知识,在受限领域的专家系统中取得成功。
大数据知识工程
大数据时代,信息无法得到有效利用
其中约 80% 是非结构化数据
23%的有用数据,3%的数据具有标注信息,0.5%的数据被利用
大数据中蕴含丰富的知识,迫切需要对大数据进行知识化,转化为大知识
总结一下:大数据知识工程——大规模、开放域、多维度、自学习
那么知识图谱就是大数据知识工程的一种非常典型的形态。
知识图谱:源起
知识图谱:图的结构
以结构化三元组的形式存储现实世界中的实体及其关系,表示为 G = ( ε , R , S ) G = (\varepsilon ,R,S) G=(ε,R,S),三元组通常描述了一个特定领域中的事实,由头实体、尾实体和描述这两个实体之间的关系组成。
关系有时也称为属性,尾实体被称为属性值。
从图结构的角度看,实体是知识图谱中的节点,关系是连接两个节点的有向边。
知识图谱示例
知识图谱:大数据知识工程的高效模型
知识图谱:人工智能的重要基础设施
词语、实体、关系、属性
Ontology(本体)vs.Knowledge Base(知识库) vs.Database(数据库)
举个例子来说:比如做蛋糕的时候,做蛋糕的模具就是 本体,做好的蛋糕就是 知识库,装蛋糕的盒子就是 数据库。
Formal Ontology(形式化的本体) vs. Lightweight Ontology(轻量级的本体)
Ontology(本体) vs.Taxonomy(层及分类体系) vs. Folksonomy(社会分类法)
知识的类型
知识图谱的类型:知识类型
代表性的知识图谱
KG介绍—— Cyc
例如:“每棵树都是植物”、“植物最终都会死亡”。
当提出“树是否会死亡”的问题时,推理引擎可以得到正确的结论,并回答该问题。
采取CycL语言来进行描述,该语言基于谓词逻辑,语法上与Lisp程序设计语言类似。
主要由术语Terms和断言Assertions组成。
Terms:包含实体、概念和关系的定义。
Assertions:用来建立Terms之间的关系,不仅包含大量事实Facts,还包含用于推理的常识规则Rules。
在此基础上提供多种推理引擎,支持演绎推理和归纳推理,同时也提供扩展推理机制的模块。
(#$isa#$BillClinton#$UnitedStatesPresident)
(#$genls#$Tree-ThePlant#$Plant)
(#$capitalCity#$France #$Paris)
解释为:"若OBJ为集合SUBSET中的一个实例,并且SUBSET是SUPERSET的子集,则OBJ是集合SUPERSET的一个实例。
Cyc Ontology
Cyc:局限性
KG介绍——WordNet
采用人工标注方法,将英文单词按照其语义组成一个大的概念网络。
词语被聚类成同义词集(Synset),每个同义词集表示一个基本的词汇语义概念。
词集之间的语义关系包括同义关系、反义关系、上位关系、下位关系、整体关系、部分关系、蕴含关系、因果关系、近似关系等。
1991 年,WordNet1.0 版本正式公布,目前WordNet 包含146,350 个单词, 111,223 个同义词集。
WordNet组织示例:上下位、同义
如上图:{equipment} 和 {camera} 是上下位的关系,而camera 和 photographic camera 是同义的关系。
WordNet组织示例:近义、反义
KG介绍—— FrameNet
KG介绍—— 知网:HowNet
介绍
知网是对概念与概念之间的关系以及概念的属性与属性之间的关系进行描述而形成的一个网状的知识系统。
区别于Wordnet,HowNet并不是将所有概念归结到一个树状的概念层次体系中,而是试图用一系列的义原对每一个概念进行描述,义原之间通过义原关系进行关联,从而使得HowNet是一个网状的知识系统。
概念:对词汇语义的一种描述。一个词可以表达多个概念,一个概念也可以用多个词表示。
在知网中,概念是用一种“知识表示语言”来描述的,这种“知识表示语言”所用的词汇叫做义原。
义原是用于描述一个概念的最小意义单位。
知网:义原体系
知网总共有1500多个义原,分为以下大类:
知网:义原关系
义原之间的关系:
上下位关系
同义关系
反义关系
对义关系
属性-宿主关系
部件-整体关系
材料-成品关系
事件-角色关系
义原之间通过这些关系组成一个复杂的网状结构。
知网:符号体系
除了义原之外,知网还用了一些符号来对概念的语义进行描述。
表示语义描述式之间的逻辑关系:~ ^
表示概念之间的语义关系:包括以下几个符号:# % $ * + & @ ? !
特殊符号:{} () []
知网:知识表示语言
利用基于义原和符号的知识表示方式,对概念与概念之间的关系以及概念的属性与属性之间的关系进行描述而形成的一个网状的知识系统。
男士:DEF=human|人,male|男
洗衣机:DEF=tool|用具,* wash|洗涤,#clothing|衣物
* 表示洗涤为用具的功能
# 表示衣物为洗涤的受事
KG介绍—— ConceptNet
ConceptNet是由描述概念及其关系的常识构成的一个开放的、多语言的常识知识图谱。
最早起源于MITMediaLab 的一个知识工程项目:Open Mind Common Sense(OMCS),该项目由人工智能之父、框架理论的创立者Marvin Minsky于1999年建议创立,致力于帮助计算机理解人们日常使用的单词的意义。
ConceptNet5包含8百万节点,2100万关系描述。主要通过专家构建、互联网众包和游戏三种方式构建。新版本导入了大量开放的结构化数据:DBPedia,Wikinary,Cyc,WordNet等。
与Cyc是一个基于谓词逻辑的常识本体相比,ConceptNet采用词语关系三元组描述,形式较为简单。
与DBPedia和GoogleKnowledgeGraph重点描述实体关系相比,ConceptNet侧重于自然语言中普通词的常识意义(Common-sensemeaning)。
更加接近于WordNet,但是包含的关系类型更多。
ConceptNet的节点是词语,有些词语的歧义通过词性、类别等进行消除。
ConceptNet的关系是专门制定的语义类别,具有确切含义。
36个核心关系类别
前面几个知识图谱都是需要借助大量人工构建的,下面几个是主要是依靠机器自动构建的。
KG介绍—— 基于Wikipedia的知识库
KG介绍—— DBPedia
介绍
2007年开始,其主要目标是构建一个社区,通过社区成员来定义和撰写准确的抽取模板,从维基百科中抽取结构信息,并将其发布到Web上。
DBPedia 总共包含95 亿事实三元组
13 亿数据抽取自英文版维基百科
50 亿数据抽取自其他语言的维基百科
32 亿抽取自Wikidata 数据
Dbpedia的抽取方法
社区通过人工的方式构建了Ontology
280个类别
覆盖约50%的维基百科实体
DIEF -DBpedia Information Extraction Framework
目标:抽取Wikipedia中的结构化信息
方法:基于属性mapping的Infobox抽取,Raw Infobox Extraction, Feature Extraction, Statistical Extraction
编程语言:Scala & Java
DBPediaLive:持续保持与Wikipedia的同步
2013年六月,英语维基百科有将近330万次编辑(每分钟越77次)
抽取框架图
KG介绍—— YAGO
德国马普研究所从2007年开始的一个项目
YAGO基于WordNet的知识体系,将Wikipedia中的类别与WordNet 中的类别进行关联,同时将Wikipedia 中的条目挂载到WordNet 的体系下。
通过语言本体和世界知识的融合,一方面扩充了语言知识库,另一方面对海量的世界知识进行了组织和整理。
使用RDFs(RDF Schema )语言与OWL(OntologyWebLanguage)语言描述,构成一个具有清晰完整逻辑定义的知识系统。
YAGO2在2017 年人工智能国际顶级学术会议IJCAI2017 上获得由Artificial Intelligence Journal(AIJ) 颁发的卓越论文奖(Prominent Paper Award)。
KG介绍—— BabelNet
多语言词汇语义网络和本体,由罗马萨皮恩扎大学创建。
与YAGO类似,BabelNet也是将维基百科链接到WordNet 上。但是BabelNet加入了多语言支持,目前覆盖了271种语言,包栝全部的欧洲语言、大多数亚洲语言及拉丁语。
包含大约1400 万个同义词集和7.46 亿个词义。
BabelNet同YAGO一起,在IJCAI2017上获得卓越论文奖。
KG介绍 —— Freebase
从Wikipedia和其他数据源(如IMDB、MusicBrainz)中导入知识
核心想法:
在Wikipedia中,人们编辑文章
在Freebase中,人们编辑结构化知识
Metaweb公司2000年开始构建
基于维基百科、使用群体智能方法建立的完全结构化的知识资源。
是公开可获取的规模最大的知识图谱之一。
包含4726 万实体、19亿个实体关系三元组
2010年被谷歌收购并纳入到谷歌知识图谱中。
2015 年,谷歌关闭了Freebase,并把数据全部迁移到Wikidata。
用户构建知识的步骤
KG介绍 —— Google:Knowledge Vault
2014年创建的一个大规模知识图谱。
相较于Google之前基于Freebase的知识图谱版本,KnowledgeVault不再采用众包方式进行图谱构建,而是通过机器学习方法自动搜集网上信息,并与已有的结构化数据进行融合,构建知识图谱。
集成和融合YAGO、Freebase、网页中的表格数据等
目前,KnowledgeVault已经收集了16亿个事实
2.71亿事实具有高置信度,准确率在90%左右。
KG介绍 —— KnowItAll
华盛顿大学图灵中心的开放信息抽取项目
目标:让机器自动阅读互联网文本内容,从大量非结构化文本中抽取结构化的实体关系三元组信息。
区别于传统的文本信息抽取系统,这里要抽取的关系(Predicate)不是预定义的,是开放性的;但是头实体Subject和尾实体Object是确定性的(利用Freebase的实体消歧工具进行消歧)。
KnowItAll:TextRunner& ReVerb
TextRunner和Reverb系统是KnowItAll项目中的两个代表系统。
主要功能:
从文本中通过识别句子的谓词抽取所有的二元关系
利用网络数据的冗余信息,对初步认定可信的信息进行评估。
可以在系统中直接查询知识(实体关系三元组)
KG介绍 —— NELL
卡内基梅隆大学基于Read the Web项目开发的一套“永不停歇的语言学习”系统。
Never-Ending Language Learning
系统每天不间断地执行两项任务:阅读和学习
阅读任务从Web文本中获取三元组知识,并添加到内部知识库
学习任务目标是提升机器学习算法的性能
区别于KnowItAll,NELL抽取的实体类别和关系类别都是确定的。
实体:300多类;关系:900多类
目前规模:三元组5000万,高质量的280万
通用知识图谱vs. 领域知识图谱
知识图谱的生命周期
知识图谱建模的6个阶段可以分为:
知识本体构建(知识建模)
指采用什么样的方式表达知识,其核心是构建一个本体对目标知识进行描述。该本体需要:
定义出知识的类别体系
每个类别下所属的实体和概念
某类概念和实体所具有的属性以及概念之间、实体之间的语义关系
定义在这个本体上的一些推理规则
——————————————————————
比如 :
Freebase的知识体系
定义了超过1.5 万个概念类别和4,000 个属性
对每个类别定义了若干关系,并制定关系的值域约束其取值。
——————————————————————
输入:
领域(医疗、金融…)
应用场景
输出:领域知识本体
领域实体类别体系
实体类别的属性
类别之间的语义关系
语义关系之间的关系
关键技术:
Ontology Engineering(本体工程)
作为语义网的应用,知识图谱的知识建模采用语义网的知识建模方式,分为概念、关系、概念关系三元组三个层次,并利用“资源描述框架(RDF)”进行描述。
RDF 的基本数据模型包括了三个对象类型:
知识获取
输入:
领域知识本体
海量数据:文本、垂直站点、百科
输出:实例知识
实体集合
实体关系/属性
主要技术:
信息抽取
文本挖掘
————————————————————————————————
举个例子说明知识获取:
2011年4月11日17点16分,日本东北部的福岛和茨城地区发生里氏7.0级强烈地震(震中北纬36.9度、东经140.7度,即福岛西南30公里左右的地方,震源深度10公里,属于浅层地震)当局已经发布海啸预警震后约30分钟后在日本海地区发生巨型海啸,同时造成福岛核电站出现核泄漏震后第十天,国际原子能机构对于日本政府反应迟钝进行了谴责。
知识融合
输入:
抽取出来的知识
知识本体
现有知识库
输出:
统一知识库
知识置信度
Ontology Matching
Entity Linking
知识存储和查询
输入:
大规模知识图谱
输出:
知识库存储结构
查询服务
主要技术:
知识表示
知识查询语言
存储/检索引擎
存储模型(1)—— RDF图模型
RDF三元组:以文本的形式逐行存储
Google 开放的Freebase 知识图谱
RDF图查询语言:SPARQL
上面是以文本形式存储的RDF图,中间是查询形式,下面是查询结果。
存储模型(2)—— 属性图模型
属性图G是5元组:
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。