当前位置:   article > 正文

工赋开发者社区 | 「新一代知识图谱关键技术」最新2022进展综述_沈松雨

沈松雨

 

近年来,国内外在新一代知识图谱的关键技术和理论方面取得了一定进展,以知识图谱为载体 的典型应用也逐渐走进各个行业领域,包括智能问答、推荐系统、个人助手等.然而,在大数据环境和新 基建背景下,数据对象和交互方式的日益丰富和变化, 对新一代知识图谱在基础理论、体系架构、关键技 术等方面提出新的需求,带来新的挑战.将综述国内外新一代知识图谱的关键技术研究发展现状,重点 从非结构化多模态数据组织与理解、大规模动态图谱表示学习与预训练模型、神经符号结合的知识更新 与推理3方面对国内外研究的最新进展进行归纳、比较和分析.最后,就未来的技术挑战和研究方向进 行展望。

https://crad.ict.ac.cn/CN/10.7544/issn1000-1239.20210829

伴随着过去10年浪潮,人工智能发展方兴未 艾,正处于由感知智能到认知智能转变的关键时期. 知识图谱作为大数据时代的知识工程集大成者,是 符号主义与连接主义相结合的产物,是实现认知智 能的基石.知识图谱以其强大的语义表达能力、存储 能力和推理能力,为互联网时代的数据知识化组织 和智能应用提供了有效的解决方案.因此,新一代知 识图谱的关键技术研究逐渐受到来自工业界和学术 界的广泛关注. 

知识 图 谱 最 早 于 2012 年 由 Google 正 式 提 出[1],其初衷是为了改善搜索,提升用户搜索体验. 知识图谱至今没有统一的定义,在维基百科中的定 义为:“Google知识图谱(Googleknowledgegraph) 是 Google的一个知识库,其使用语义检索从多种来 源收集信息,以提高 Google搜索的质量.”从当前知 识图谱的发展看来,此定义显然是不够全面的,当前 知识图谱的应用俨然远超其最初始的搜索场景,已 经广泛应用于搜索、问答、推荐等场景中.比较普遍 被接受的一种定义为“知识图谱本质上是一种语义 网络(semanticnetwork),网络中的结点代表实体 (entity)或者概念(concept),边代表实体∕概念之间 的各种语义关系”.一种更为宽泛的定义为“使用图 (graph)作为媒介来组织与利用不同类型的大规模 数据,并表达明确的通用或领域知识”.从覆盖的领 域来看,知识图谱可以分为通用知识图谱和行业知 识图谱;前者面向开放领域,而后者则面向特定的行 业.随着知识图谱在各行业的应用落地,知识图谱技 术的相关研究得到了大量研究者的关注.以知识图 谱为基础的典型应用也逐渐走进各个行业领域,包 括智能问答、推荐系统、个人助手、战场指挥系统等.

传统的知识图谱研究领域主要围绕传统的数据 存储、知识获取、本体融合、逻辑推理以及知识图谱 应用等方面.文献[2]详细综合和分析了知识图谱存 储管理最新的研究进展.文献[3]从知识表示学习、 知识获取与知识补全、时态知识图谱和知识图谱应 用等方面进行了全面的综述.文献[4]则重点对面向 知识图谱的知识推理相关研究进行了综述. 

然而,在大数据环境和新基建背景下,数据对象 和交互方式的日益丰富和变化,对新一代知识图谱 在基础理论和关键技术等方面提出新的需求,也带 来新的挑战.和已有的知识图谱研究综述相比,本文 将从众多最新的知识图谱研究方法中,对3方面的 新一代知识图谱关键技术和理论做分析:1)非结构化多模态数据组织与理解; 2)大规模动态图谱表示学习与预训练模型; 3)神经符号结合的知识更新与推理. 本文将综述国内外新一代知识图谱关键技术研 究发展现状,对国内外研究的最新进展进行归纳、比 较和分析,就未来的技术挑战和研究方向进行展望.

1. 非结构化多模态数据组织与理解

1.1 非结构化多模态数据组织

“模态”的定义较多,可以直观地理解为不同类 型的多媒体数据,也可以作为一个更加细粒度的概 念,区分模态的关键点可以理解为数据是否具有异 构性.例如,对于某个歌手,互联网上可以找到他的 照片和歌曲视频,同时也有相关的文本信息(百科、 新闻等)以及具体的歌曲音频.图片、视频、文本、语 音这4种数据,可以被理解为该对象的多模态数据.目前主要的非结构化多模态知识图谱如表1所示:

DBpedia [5]作为近10年来知识图谱研究领域的 核心数据集,其丰富的语义信息中也包含了大量的 非结 构 化 数 据,如 文 本 描 述 和 实 体 图 片.目 前 DBpedia包含了超过260万个实体,且每个实体具 有唯一的全局标识符.以此为基础,越来越多的数据 发布者 将 自 己 的 数 据 通 过 SameAs 关 系 链 接 到 DBpedia资源,使 DBpedia一定程度上成为多类型 数据组织的中心.目前,围绕 DBpedia的互联网数据 源网络提供了约47亿条信息,涵盖地理信息、人、基 因、药物、图书、科技出版社等多个领域.

Wikidata [6]中也存在大量的多模态数据资源, 它是维基媒体基金会(WikimediaFoundation)推出 的知识图谱,也是维基媒体数据组织和管理的核心 项目.Wikidata充分利用了知识图谱的图数据模型, 综合了 Wikivoyage,Wiktionary,Wikisource等各类 结构化和非结构化数据,其目标是通过创造维基百 科全球管理数据的新方法来克服多类数据的不一致 性,已经成为维基媒体最活跃的项目之一,越来越多 的网站都从 Wikidata获取内容以嵌入提供的页面 浏览服务. IMGPedia [7]是多模态知识图谱的早期尝试.相 较于 DBpedia和 Wikidata,其更关注在已有的知识 图谱中补充非结构化的图片信息.

IMGPedia的核心 思路是首先提取 WikimediaCommons中的多媒体 资源(主要是图片),然后基于多媒体内容生成特征 用于视觉相似性的计算,最后通过定义相似关系的 方式将图片内容信息引入到知识图谱中,此外其还 链接了 DBpedia和 DBpediaCommons来提供上下 文和元数据.IMGPedia的优势在于开创性地定义了 知识图谱中图像 内 容 的“描 述 符”,也 就 是 视 觉 实 体属性(诸如灰 度 等),同 时 根 据 这 些 描 述 符 去 计算图片相似度,方便人们进行相似图片的查找.但 IMGPedia中定义的“描述符”种类较少,且图片之 间的关系单一. 

MMKG [8]项目旨在对不同知识图谱(Freebase, YAGO,DBpedia)的实体和图片资源进行对齐

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/繁依Fanyi0/article/detail/1001189
推荐阅读
相关标签
  

闽ICP备14008679号