当前位置:   article > 正文

新KG视点 | 白硕—大模型时代的知识图谱

知识图谱 大模型

OpenKG

71a6ec70aaf0ea9a439a22efec720a69.png

大模型专辑

导读 知识图谱和大型语言模型都是用来表示和处理知识的手段。大模型补足了理解语言的能力,知识图谱则丰富了表示知识的方式,两者的深度结合必将为人工智能提供更为全面、可靠、可控的知识处理方法。在这一背景下,OpenKG组织新KG视点系列文章——“大模型专辑”,不定期邀请业内专家对知识图谱与大模型的融合之道展开深入探讨。本期特别邀请到恒生电子研究院院长白硕分享“大模型时代的知识图谱”,本文整理自白硕老师在中国计算机学会CCF Talk上的分享。

分享嘉宾 | 白硕 恒生电子研究院院长

笔记整理 | 邓鸿杰

内容审定 | 陈华钧


914e95791a8fceec72632a142963f345.png

01

大模型发展路线

260c13414e72cdbac5858c05e7cacfff.png

众所周知,大模型这个话题从去年十一月份以来都是比较热,它的出现实际上是代表了通用人工智能的一个重大的突破,也是自然语言理解或者自然语言处理领域一个重大的突破。但这个重大的突破比我们预想来得要早一些,它发生的这个部位也跟很多人的预测不太一致。那么众所周知,大模型是起源于transform这样一项技术,这个技术实际上是分成了两派,一派是以谷歌为代表,就是我们看到的下面走的一条路,bert可能很多人都熟悉。还有一派是上面这条路,这个是以openai公司为代表,他们做出来的东西是GPT系列。可能很多人都把这个关注点放在谷歌这样一条线上,都期待他们会先突破。但是实际的情况是openai这条线率先出现了这么一个突破,或者说产生了这个涌现的这样一个现象,这就是大家熟知的一个目前都在用的大模型。那么这两条技术路线有什么分别呢?GPT这条路线,它是一个从左到右生成的一个路线,可以叫词语接龙。底下是以谷歌为代表的这样一个路线,它是一个双向的路线,可以叫做完形填空,就是说中间是空的,然后从左右两边去逼近它,去猜测这个中间是什么。这两种模型都是需要使用巨大的算力来做的。

f018fad15c35b6716d0286d7c8e54b52.png

我们简单举个例子看看接龙模型是什么样的,比如说:“如何开通”有个空白,那后边可能是股票或者账户当中的某一个字。然后再看那个填空的模型,那比如说:上海一个空交易所,那中间可能有证券、可能有期货、可能有黄金、可能有大数据等等,那么这些他们有不同的概率分布。这是大家看到的比较短的上下文。如果是很长的上下文,有很多的词语存在,这些词语都有可能对这个“空白处”的内容产生影响,那就需要去判断这些词语对“空白处”的影响大概是多少。

02

重大突破

f87db35a66ccc45e10937b8881eb0ffe.png

那它实现了哪些突破呢?我们从学术上看、从自然语言理解的这个本身的难点上看,它出现了两个重大的突破。第一个突破就是远距离的关联。远距离关联说起来就是一个我现在要预测的词,可能跟之前第n个词是有关联的,而这个关联如果不把握住的话,你就没有办法去做预测,所以你要先去预测前面的。但前面的这个窗口开的越长,需要的算力就越大,要捕捉正确的那个能影响到现在需要预测的词语 也就越难。实际上用蛮力去解决这个问题还是需要一个精巧的模型。那么这个模型就是transform attention这样一套东西,所以是解决了这个问题。

89081d23948271717c28f9b92f5133d0.png

那另一个是解决了什么问题呢?刚才那个问题是横着看,就是将语言展开的时候,它的前言和后语之间怎么能搭上?是从这个横向的角度看。而另外一个角度就是纵向,也就是说理解这句话,要想精确地理解它的意图,我们需要调用什么东西,一般来说我们能看到的都是字面上的东西。打个比方,我们能看到的就是冰山海面以上的部分。但是,我们真正用到的是非字面的部分,它的语义部分、它的常识部分、它的事理部分和所谓的世界知识这些东西。这些就好像是冰山海面之下的部分,非常大,但是不可见。不可见却产生了影响。这个影响如果要想去复制它,按照过去的技术路线把这个东西复制出来,也不是没有人尝试过,但是没有人成功过,因为太庞大。而现在我们通过对这种高质量的数据的训练,因为我们认为高质量数据里边隐含了一些关于语义的、关于常识的、关于事理的这样一个知识,所以他们能够把这一部分也挖掘出来,而挖掘出来的这个东西到了一定量的时候,它就会产生一个涌现的现象,即突然对意图的理解就融会贯通了,这其实就是隐形的资源在起作用。

03

金融领域应用场景

004c154e5888686ca0649de1c3d8ef88.png

那么这两个有了以后,其实大模型的语言能力差不多已经达到巅峰。我们现在看到最好的这个意图理解和语言生成的大模型,其实已经接近了巅峰,它的语言能力已经是自足的。不仅语言能力是自足的,而且使用语言的那种分寸,实际上它也被调教的能够跟我们的世界观对齐,以及机器和人之间的地位的理解、尺度的权衡等方面都达到了比较高的水平。但如果你让模型去进一步学习复杂的计算、复杂的推理,还是比较困难的。你让他去获取一些专有的数据、专有的事实性的知识和时效敏感的一些知识,这个时候他可能会由于模型本身训练周期短的问题而无法实现。然后,复杂的计算和推理本身它需要的这种能力 和 通用人工智能(AGI)需要的这种能力,其实是两种不同性质的能力。所以他们对于模型的要求也是不一样的。如果想让一个模型兼顾不同性质的这种学习的话,实际上还是有问题的。所以在这个地方,我们感觉到它好像触碰到了一定的壁垒,如果要想进一步去提升这方面的能力,光靠提升算力或者模型的规模不一定是有效的,可能还需要各种技术路线的结合,比如大小模型的结合以及AGI模型和专门搞计算推理的模型的结合。所以这里确实是存在语言能力和知识能力,这时我们要用不同的视角去考察它。

10ddc7cd11ec644ca5f86a6fc364704c.png

那么我们回过头来以金融为例,从现在到2030是一个所谓的数智化窗口,在金融领域也会产生数据和智能的更深度的融合。这个转型会把金融领域这些IT的基础设施和能力提升到一个新的阶段。

d8700606c57ac14f5c3e2c1fa6c01ec0.png

在这个阶段,我们认为人工智能就像流体一样。如果说过去我们看到的一些技术比如云原生技术什么的就好像是底座、是固体。那么这个数智能力、人工智能这种东西好像是一种流体,会弥漫式赋能到各个场景。过去这个能力由于技术还没有实现高水平的突破,所以弥漫式赋能到各个场景并没有到来。但是现在已经快要到来了。

cb2c255ac43f51520c15df82a74a1f5f.png

在金融领域里,投资决策是非常重要的,会涉及到数据、涉及到计算、涉及到推理。我们看这个图,数据底下有云原生底座,上面有数据的中台,再往上面就是要有计算能力和推理能力。我们先不说计算能力,先说这个推理能力。

04

推理能力及发展

4ca47795b105e64c04c429c81693fbe2.png

这个推理能力它需要有数据作为它的支持,然后要有知识,还有一个就是所谓的知识引擎,这样才能产生结论。那现在大模型也用推理这个词儿,这个我们要注意,此推理非彼推理。我们现在说的推理能力指的是reasoning,不是inference。那这个reasoning本身它是在逻辑上要有一定的依据,而这个依据inference是不一定能够带给我们的,inference我们可以说它是推断,只是现在大多叫推理。

c84682a73aec339164863b007dc6adf6.png

那这个推理的历史其实可以追溯到数千年前,也是在东西方都出现了推理这个萌芽。然后,经过持续的发展,尤其是一百多年来的发展进入了形式化的阶段。然后在计算机出来以后,用计算机做推理就进入了自动推理的阶段。在自动推理这样一个阶段到来之后,我们看到了飞速的发展,人类也在这个过程当中对自身理性进行挖掘、进行认识、进行驾驭,并且自动化。这个过程越到后面越主动,但是越到后面也越难。

d98b67c3ee83c5a4beb22e109dd58974.png

这里边涉及到的推理就不详细展开介绍了,有从上到下、一般到特殊,这是演绎推理。从下到上是归纳推理,从左到右是因果推理,从右到左是溯因推理。然后这个底下的“从特殊到特殊”还有一个小的循环,这个是类比推理,这些都是我们常见的一些推理的模式。

4f60b2bd6f1a874857d41857f133f60c.png

当然,这些模式要在机器上去实现,我们会遇到不同的问题,就像图中画出的不同的圈儿。每个圈儿代表一种推理的表达和实现的范式,这种范式本身它的表达能力和他的计算能力就构成了它的一个能力范围。我们看这个能力的范围,太高的我们目前还实现不了。即使是一阶逻辑也有大量实现不了的。上世纪80年代中后期曾经有一个语言叫Prolog,它是能做一定的推理,也是很多专家系统的基础语言。那么它上面可以做霍恩子句的推理,但是霍恩子句的推理它对计算机内部的要求跟通用的计算机的体系结构还是不相匹配的,所以这个也是发展不长久。最后大浪淘沙留下来的就是我们的第二圈儿叫描述逻辑,也是现在知识图谱的基础。

05

知识图谱

fbf53bb8e1acdd2da6374ae76d7f6bed.png

知识图谱不仅仅是有描述逻辑作为它的理论支撑,而且它还有一个丰富的技术栈。这个技术栈从底层的存储到各种引擎,然后到它的各种工具,一直到最后怎样去导入知识、抽取知识和导入数据等等一系列的环节,整个构成了一个丰富的技术栈。有了这样的技术栈,有了这样的逻辑的支撑,所以它目前还是一枝独秀的。

9ca9bc3eaa2cc76fea66cbfb4c2da900.png

知识图谱也在进一步的发展。比如说:投资界就比较关注事件驱动,那事件驱动就可能有事理图谱,这样就把事件也纳入知识图谱这个大的范围,于是就有了事理图谱的一些发展。比如说:怎么把事件当成一个特殊的实体来做,数据的变化怎么能够作为事件的一种激发条件,怎么去把推理能力和计算能力进行融合。然后事件除了进行个别事件到个别事件的推理之外,还能把它聚成类型,从而实现一种抽象的规则。就是在事件的本体上去定义一些推理的模式,甚至可以做逻辑沙盘。比如说事情没有发生,那我们假设它发生,会怎么样?这个就是所谓的what if型可回测的推理。那这个就是我们看到的技术路线发展的一种情况。

3b085cfabfaa02af6e6c8508e1df83c4.png

那么就在这个时候,大模型来了。有些人就说大模型要颠覆知识图谱,要取代知识图谱。那么是不是这样子呢?我们先对知识图谱的应用场景和应用深度做一下分类。我们先看应用场景,首先看数据从哪儿来,然后看知识图谱怎么用。上面分成了三种不同的类型,一种叫两头在外型,就是说知识是从公网上获取的非结构化数据,然后从非结构化数据里面提取知识,再把提取出来的知识放到知识图谱里面,这就是知识的获取。然后知识的应用,它主要还是跟人进行交互,而不是在系统里边。比如说KGQA,就是基于知识图谱进行问答。除了两头在外型,剩下两个就是一内一外型和两头在内型。比如:一个金融机构或者一个实体经济的机构,它有生产数据库,它的生产数据库时时刻刻都在生产数据,新的数据存储为结构化,直接将结构化数据导入到知识图谱里边。即从内部进行知识获取。然后知识图谱也不一定跟人进行交互,可能会跟系统进行交互。比如说:向交易系统去输出一些量化因子等。如果是一内一外型,就是说可能知识获取这个环节在外边,或者知识应用这个环节在外边。

1a39fd3ca433e8ce29aa5c3975e60e34.png

我们再看应用的深度,可分为:事务密集型和计算密集型。所谓的事务密集型就是它推理比较浅,它的查询比较简单,更多的是有大量的访问,需要对每个访问进行响应。可能会去展现一些数据的可视化、输出答案或者转换成答案等等。这种叫事务密集型。还有一种叫计算密集型,比如说:有估值模型、有反洗钱的模型,还有股权穿透的计算。我们拿股权穿透的计算为例,就是说一个实际控制人他化整为零,把他的投资分散到很多的公司,然后这些公司又化零为整,投到了一个他实际在控制的公司。这个化整为零和化零为整的过程比较复杂,如果说没有掌握大数据的话,可能就会看不懂。但是如果掌握了大数据,可以用这种深度比较深的图计算通过计算把背后的实际控制人找出来。这个在资本市场有很多的应用。

cb2132e7fda36bf69871319fef8c173f.png

回到我们这个问题,大模型能够代替知识图谱吗?具体要看应用场景和应用深度的组合,这样的组合一共有六种,我们发现只有一种,即应用场景是两头在外型,应用深度是事务密集型的这种大模型可以取代知识图谱。因为它的知识是在外面、在公网上,而我们知识图谱的知识也在公网上。大模型是用语言来回答,而知识图谱像KGQA也是用语言来回答。那么在这种同场竞技的情况下大模型确实有比知识图谱优越的地方。但是也不能说完全可以取代大模型,因为另外的五种组合,我们认为是不能取代的。

9a2277346083e251ec6965f54da9b9ee.png

那他们是什么关系呢?我们等一会儿再讲。我们先看为什么一些深度的计算、一些复杂的推理,不适合大模型做。因为通用人工智能 和 对符号具有清醒状态、具有清醒意识的这样一种模式或者思维,是两种不同性质的思维模式。比如:在一个脑部分区上看的话,大家看到真正符号清醒的思维功能是在额叶区。其他的像颞叶、顶叶和枕叶,这些更像AGI的处理方式。所以在追求精准、追求深度或者追求符号清醒的时候,我们要转换这个模式,不能再用AGI的模式,而是要用一种符号清醒的模式。这种模式可能就跟我们做复杂的数学推理,做复杂的逻辑推理或者知识图谱一样。因为有路径、有递归性,如果把这些任务交给一个大模型去做,它肯定是做不好的。所以这也是我们有的一个基础。

622ee6e9664cdc3e52919a00c4b09a54.png

那么,他们之间到底是一个什么关系呢?我们可以从 横 和 纵两个角度看。从横的角度看,是以大模型为核心,很多插件围绕大模型构成一个插件联盟。知识图谱可能就是作为其中的一个插件,和大模型相辅相成。比如:我们用自然语言去把我们对知识的需求尽可能人性化地描述出来,然后大模型去做,因为他有这种精准的语言理解的能力,他可以利用这个理解的能力把需求转换成对知识图谱的各种查询操作。但是,从 纵向角度也叫垂直领域看,它是反过来的。比如说专业领域有非常精准的并且是外部得不到的知识图谱数据,我们可以进行专业的推理,这个时候大模型会利用知识图谱。同时我们也可以去调用大模型,因为我们不仅可以用知识图谱描述业务知识,也可以用知识图谱来描述一些被大模型赋能的系统,通过这种元数据描述的方式把二者给对接起来。所以我们可以看到在垂直领域里边有很多的应用,通过API的方式去和其它模型进行对接。这里最好的方式就是可以利用知识图谱来描述API或者元数据,所以这个地方可以这么用。

71449eaf6e74682d696053a3c6fa8eec.png

最后,我们再把这个地方展开一下。即一个自然语言的输入,经过大模型的理解,再经过一些映射,可以映射到数据表、映射到专业的知识图谱、映射到流程、映射到监控大屏和驾驶舱,也可以映射到API以及映射到系统里等等,从而帮助我们实现 语控万物。在语控万物里,元数据是刚,而组织元数据,知识图谱是天然的利器。所以,大模型的威力固然很大,但是在接受万物这件事情上,知识图谱可以发挥更大的作用。

06

总结与展望

b5e4726cc111bef7105e7aa1b68f6d5b.png

总而言之,在大模型的时代,我们从事知识图谱研究的工作者,应该秉持清醒坚守融汇的理念。清醒就是说知识图谱到底是处在一个什么样的位置,它不是要被指代的位置,而是我们看到它是可以跟大模型共存共生、互相加强的。其实在这里知识图谱不是说太强,而是太弱了。所以我们有责任去把知识图谱还比较弱的地方进行补强,让它有更强的表达能力、计算能力,以及跟大模型对接的能力。那融汇就是说要把知识图谱的能力和大模型的能力做一个化学反应,让它产生一加一大于二,或者说不是加法而是乘法的这样一种效应。

以上就是本次分享的内容,谢谢。

ba5f5d6c6626c7ca447c3146181d4a0a.gif

db535edd8dfe5fde4fadfdfbad6a1e86.jpeg

作者简介

INTRODUCTION

ad10265961d0f538905301fad44ef1db.gif

白硕

4970aa673ff90a081c5b8ad4bc794ba8.gif

恒生电子研究院院长、首席科学家

24f90105aa0804ba6a8d114613368d93.gif

白硕,本科就读于清华大学计算机系,硕士、博士研究生就读于北京大学计算机系。曾任中科院计算所研究员、博士生导师、软件室主任、软件方向首席科学家。在任上海证券交易所总工程师十余年,主导了上交所新一代交易系统的上线。2021年起任恒生研究院院长、首席科学家。


OpenKG

OpenKG(中文开放知识图谱)旨在推动以中文为核心的知识图谱数据的开放、互联及众包,并促进知识图谱算法、工具及平台的开源开放。

cafed94b012536c843310dc05f2c98ef.png

点击阅读原文,进入 OpenKG 网站。

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/Cpp五条/article/detail/588049
推荐阅读
相关标签
  

闽ICP备14008679号