赞
踩
作者:陈华钧
知识图谱的最终目标,是寻找合适的万物机器表示,记录有关世界的知识。在传统的专家系统时代,人们发明了描述逻辑等符号化的知识表示方法来描述万物,人类的自然语言也是符号化的描述客观世界的表示方法;到了互联网时代,人们又设想用本体和语义链接有关万物的数据和知识,这也是知识图谱的起源之一;随着表示学习和神经网络的兴起,人们发现数值化的向量表示更易于捕获那些隐藏的不易于明确表示的知识,并且比起符号表示更易于机器处理。知识图谱同时拥抱机器的符号表示和向量表示,并能将两者有机的结合起来解决搜索、问答、推理、分析等多个方面的问题。
在这一趋势下回顾传统的人工智能,可以有新的收获。传统的人工智能主要体现为专家系统(Expert System),被称为GOFAI(Good Old Fashioned AI),是一种“看上去很好”的人工智能,虽然在发展中遇到诸多问题,但能将人工智能的结构解析得比较清晰,其基本框架接近人的认知:知识来源一般源于专家,刻画知识的方式主要是知识库(Knowledge Base),通过推理引擎(Inference Engine)来实现交互。
结合知识图谱、深度学习等新的人工智能技术手段,我们可以对专家系统进行重构:原有的知识库可以采用知识图谱的方式,让知识获取的手段更加容易;除了传统的符号表示,也要考虑如何用向量来表示实体、关系等知识;在知识获取方面,专家层面的经验为现代知识的构建提供了重要的输入,此外现在还有设备传感数据、自动采集的日志数据、多种模态的数据等大量的机器数据,知识图谱在一定程度上可以起到桥梁性的作用,将专家经验性的知识与机器数据通过比较有效的表示结合起来。
(结合知识图谱、神经网络重构传统专家系统)
在推理引擎方面,传统的符号推理引擎有很多,由于有诸多瓶颈,例如对知识质量要求非常高,均未能实现大规模商业化应用,现在推理引擎可以在神经网络、表示学习等深度学习技术加持下实现更好的推理;在面向用户的交互方面,不再仅仅是简单查询,还可以实现搜索、智能问答、基于图分析的决策分析,通过一些可视化的手段支撑对所有数据在各个维度的整体性分析,同时对所有推断结果提供可解释性。
很重要的一点是,人和神经网络能够形成闭环:任何一个对人的交互,实际上都是一个信号,可以反馈回来,去提升模型的效果。因此,结合知识图谱、深度学习,可以对照传统人工智能的基本框架来考虑模块的重构,这个过程可能会产生一些更新的技术。
近几年,学术界特别关注如何在低资源条件下构建知识图谱,相关论文的产出也比较多。因为在实际的领域实践中,不论是关系抽取还是实体识别等,很多时候都会面临低资源问题。例如在金融领域做关系抽取任务,并不是所有关系都有丰富的训练语料,而且新的关系、新的属性、新的实体类型总会不断出现,甚至会面临完全没有样本的情况,也即零样本问题。
低资源条件下的知识图谱构建
对于低资源知识图谱的构建,基于关系对抗网络的语义关系挖掘是一种新的方法,可以利用关系对抗网络实现关系的迁移,实现低资源条件下的关系抽取和关系补全。这种方式的基本思想比较简单,比如金融知识图谱构建高管关系,CEO的相关资源比较丰富(High Resource),可以有比较多的训练样本,但是CFO、CDO等处于长尾部分的高管关系可能相关资源比较缺乏(Low Resource),训练样本较少,通过对抗学习的过程,可以将从资源丰富的关系中学到的知识,去适应不同但相关的低资源关系,从而实现低资源关系的预测。
基于对比学习的生成式三元组抽取也是一种新的方法,有助于降低对人工标注资源的依赖。现有的抽取模型通常假定对于一句话一次只能抽一个三元组,但通常一句话中会有多个三元组,通过将抽取的过程建模成生成的过程,一方面可以实现输入一句话能够同时生成这句话中包含的多个三元组,另一方面能够借助数据自有的一些信号(无监督学习)来完成抽取,降低对人工标注数据的依赖。
低资源学习与小样本推理
前文介绍的是低资源条件下构建知识图谱的方法,其实反过来,知识图谱也可以促进一些低资源问题的解决。近期学术界有一项新的工作进展,其基本思想是基于本体与生成模型的零样本学习(OntoZSL,Ontology-enhanced Zero-shot Learning)。零样本学习本质是一个推理的过程,例如在机器学习的过程中,用大量的马的照片作为训练样本可以实现较好的训练效果,此时如果要求机器仅凭一张斑马的照片就能够对斑马进行正确的预测,这就是零样本学习的问题。OntoZSL的方法利用深层的语义和知识做特征生成(Feature Generation),为低资源类别生成复合分布期望的样本,从而将零样本问题变成有样本问题。
综上所述,知识图谱对于低资源问题的解决,主要可以起三方面的作用:知识图谱可以做实现迁移的桥梁,上文案例中之所以可以通过马的模型去预测斑马,是因为通过知识图谱建立了马和斑马的关系,进而实现模型的迁移;知识图谱可以用于推理,零样本问题本质是利用知识完成推理的过程;知识图谱可以提供整个模型的可解释性。
对于人工智能的发展来说,知识图谱和神经网络是两个重要维度,学界、业界都需要考虑如何将两者更好地结合,如何将专家知识融入知识图谱,与机器所产生的数据关联起来,从而更好地完成推理。在数据足够丰富的场景,可能采用深度学习的方式即可,但在没有数据或数据不足时,知识图谱可以帮助我们用推理来解决问题,这一点也尤为重要。
本文作者:陈华钧,恒生博士后工作站导师
作者简介:大数据及知识图谱领域专家,浙江大学教授、博士生导师,中文开放知识图谱OpenKG发起人,任中国中文信息学会语言与知识计算专业委员会(SIGKG)副主任、浙江省大数据智能计算重点实验室副主任等,在IJCAI,AAAI/IAAI等国际顶级会议或期刊上发表多篇论文。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。