当前位置:   article > 正文

技术动态 | 基于GPT-4的知识图谱构建能力评测

知识图谱 精准测试

一、摘要

知识图谱是一种用图模型来描述知识和建模世界万物之间关联关系的大规模语义网络,是大数据时代知识表示的重要方式之一。而大型语言模型,如OpenAI发布的GPT-4 ,通过在大量文本等数据上进行预训练,展示出了极其强大的通识知识和问题解决能力[1][2][3][4]。知识图谱可以为大型语言模型提供精准的结构化的知识,助力和改善模型的推理效果和生成质量,并提供对知识的精准操作和分析能力。

目前,诸多领域仍缺乏足够精准和完备的知识图谱,那么GPT-4等大模型是否能为高效知识图谱构建带来便利?我们对GPT-4的知识抽取能力进行了分析,探究的主要内容有:

1. GPT-4对不同类型知识如事实、事件及不同领域如通用、垂直知识的抽取能力分析

2. GPT-4 和ChatGPT抽取能力对比及错误案例分析

3. GPT-4抽取未见知识的泛化能力分析

4. 展望大模型时代知识图谱构建的新思路

二、知识抽取能力分析

因还未申请到GPT-4的API,我们基于ChatGPT-plus的交互式界面并通过随机采样测试集/验证集样本的方式,评测了GPT-4在实体、关系、事件等知识上的Zero-shot以及One-shot抽取能力,并和ChatGPT及全监督基线模型的结果进行了对比。我们选取了DuIE2.0[5]、RE-TACRED[6]、MAVEN[7]以及SciERC[8]作为本次实验的数据集。因为部分数据集并未提供实体类型,所以我们在指令提示(Prompt)中统一设置为只提供待抽取的关系/事件类型,且不显式指定待抽取的实体类型。

通过随机采样测试,我们发现,无论在Zero-shot还是One-shot的情况下,GPT-4在多个学术基准抽取数据集上均取得了相对较好的性能,且比ChatGPT取得了一定程度的进步。同时,One-shot的引入也使模型在Zero-shot上的性能得到了进一步提升。这在一定程度上说明了GPT-4具备着对不同类型、不同领域知识的抽取能力。然而,我们也发现目前GPT-4仍不如全监督小模型。这也与前人的相关工作发现一致[2][4]。特别注意的是,该结果为随机采样测试集并通过交互界面(非API)测试结果,可能会受到测试集数据分布和采样样本的影响

此外,提示的设计和数据集本身的复杂程度也对本次实验的结果有较大的影响。具体地,我们发现在四种数据集上ChatGPT和GPT-4评估结果可能受到如下几种原因的影响:

  • 数据集:存在噪音且部分数据集类型不够明晰(如未提供头尾实体类型、语境复杂等)

  • 指令提示(Prompt):语义不够丰富的指令会影响抽取性能(如加入相关样本In-Context Learning[9]可以提升性能;Code4Struct[10]发现基于代码结构可促进结构化信息抽取)。需要指出的是,由于部分数据集存在无头尾实体类型的情况,此处为了横向公平对比不同模型在数据集上的能力,实验在提示指令中并未指明抽取的实体类型,这也会在一定程度上影响实验的结果。

  • 评估方式:现有的评估方式可能不太适用于大模型如ChatGPT与GPT-4抽取能力的评估。如数据集中所给标签并未完全覆盖正确答案,部分超出答案的结果仍可能是正确的(存在同义词等)。

具体内容我们将在下一章节进行详细分析。

三、能力对比与错误案例分析

我们进一步针对选取的四个数据集中的部分案例进行了分析(由于实验中使用的Prompt较长,在这里只展示部分重要信息)。

(一) DuIE2.0

1. Zero-shot

  • ChatGPT VS GPT-4

68fbc2a26e0f6df2b01df47367ebe133.png

4055ba87ffa083dca4c0e618167d3515.jpeg

在SPO三元组的抽取过程中,我们注意到在使用相同的Prompt的情况下,GPT-4更能理解Prompt所提供的指令并理解待抽取样本的上下文信息,执行符合条件的三元组抽取。如图所示,ChatGPT虽然能够理解句子的大意,给出[作者,是 , 岑叶明]的结果,但与答案[昔年一起走过的路 , 作者 , 岑叶明]仍存在较大差距。相较于GPT-4在此条样本上的表现,ChatGPT在谓词的抽取上以及主语宾语的选择上显得不够精炼准确。

  •  GPT-4

4f1864f6ea79ff7a0c7805db7271803e.png

934a3721b14a4eba4b528d22b2537d1c.png

在上图中,我们让GPT-4完成对句子“然而近日,网友通过不少陈年旧照发现,张小斐其实并非喜剧曲艺出身,而是毕业于2005届北京电影学院的表演系本科专业,与现今大红大紫的内地花旦杨幂、袁姗姗等曾同窗为友,怪不得每次出场气质逼人”的三元组抽取。数据集中给出的正确答案为[杨幂 , 毕业院校 , 北京电影学院]、[杨幂 , 毕业院校 , 2005届北京电影学院 ]。由图可知,GPT-4并没有成功抽取出这两组信息。究其原因可能是数据集本身的信息指向性不够明确,导致GPT-4所关注的信息产生偏差。但只关注GPT-4本身给出的答案,我们仍可以在一定程度上认为GPT-4在三元组抽取上具有不错的表现。

2. One-shot

  • ChatGPT VS GPT-4

da657495702dfae2d1e3a27587475b29.png

361dceea52686d26e6614896d8ef29a9.png

c723e10c059370036f2d57aea939500d.png

与Zero-shot的情况类似,One-shot实验条件下ÿ

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/菜鸟追梦旅行/article/detail/307542
推荐阅读
相关标签
  

闽ICP备14008679号