当前位置:   article > 正文

大语言模型的创意能力到底几何?探索从GPT-2到GPT-4的演进_经典代替用途任务

经典代替用途任务

编者按:大语言模型可以提供许多创意性内容,如写诗、写小说等。那么到底应该如何评估大语言模型生成的创意性内容的水平呢?

本文探讨了GPT-2到GPT-4的创造性,并分析了这些模型在不同创造性测试中的表现。作者使用了三种测试来衡量模型的创造性:Remote Associates Test、Alternate Uses Task和Divergent Association Task,并发现越新的模型在所有创造性任务中表现越来越好。

然而,也存在一些例外,在某些仅有一个“正确”答案的测试中,简单的GPT-2模型比最新的GPT-4模型表现更好。作者认为这些实验旨在衡量模型生成的创意性内容水平,而不是衡量模型本身的创造力。

以下是译文,Enjoy!

本文经原作者授权,由Baihai IDP编译。如需转载译文,请联系获取授权。

原文链接

https://blog.yenniejun.com/p/exploring-creativity-in-large-language

作者 | YENNIE JUN

编译 | 岳扬

最近一段时间,人们使用大语言模型(LLMs)创造了许多有创意的内容,比如书籍[1]、微型小说[2]、rap battles[3]和音乐和弦[4]等。但是,我们是否能更全面地衡量这些模型中的创意能力呢?

长期以来,人类的创造力一直是令许多心理学家和心理研究者着迷的领域。自上世纪50年代起[5],心理研究者们创造了一系列创造力测试,可以比较个体的创造力表现和潜力。虽然没有任何一个测试可以完全量化人类的创造力,但这些测试衡量了创造力的不同方面。

本文将分析从2019年至2023年GPT模型在能够衡量两种创造性的测试下的表现:收敛性(只存在单一的正确解决方案)和发散性(开放式的测试;可能存在多种解决方案) 。这些测试包括:

  1. 使用第四个词连接三个看似不相关的单词(Remote Associates Test[6])
  2. 为日常物品提供尽可能多的替代用途(Alternate Uses Task[7])
  3. 列举出尽可能相互之间差异最大的十个名词(Divergent Association Task[8])

通过对这些测试结果进行分析,我专注于早期的GPT-2模型到最新的GPT-4模型的表现变化。通过运用主观和客观的视角,来理解这些模型的行为。一般而言,后期的模型在所有创造性任务中的表现都会越来越好。但是我发现了几个例外,当测试中仅有一个“正确”答案时,简单的GPT-2模型比最新的GPT-4模型表现更好。同时,我将GPT模型与人类在同样的创造性测试上的表现进行了比较。

注:这些实验旨在衡量模型生成的创意性内容的水平,而不是衡量模型本身的创造力。我并不认为GPT模型或一般的LLMs像人类那样拥有创造性思维。相反,我的目的是展示这些模型如何对特定的创意性性测试进行响应。

GPT模型的发展历程

生成式预训练Transformer(GPT)是一种语言模型,其在互联网中大量的语料内容中进行训练,基于前一个token预测下一个token。尽管最近几个月ChatGPT引起了公众的关注,但OpenAI的GPT模型(以及模型背后的技术)已经存在几年了。

  • GPT-1(2018年,117M参数)。这是最原始的GPT模型。我使用了HuggingFace上的开源版本[9]。然而,输出结果不太妙,所以在本篇文章中我没有记录任何GPT-1的输出。

    论文:Improving Language Understanding by Generative Pre-Training[10]

  • GPT-2(2019年,15B 参数)。我使用了HuggingFace上的开源版本[11]。对于一些实验, GPT-2的输出毫无意义,对于理解其行为没有用处,因此我在相应的分析中没有记录这些内容。

    论文:Language Models are Unsupervised Multitask Learners[12]

  • GPT-3(2020年,175B 参数)。比GPT-2大100多倍。我使用了OpenAI APIs[13]上的text-davinci-002

    论文:Language Models are Few-Shot Learners[14]

  • GPT-3.5(2022年)。虽然有多个版本的GPT-3.5,但我使用了与最初ChatGPT[15]使用的模型相同的模型,该模型使用强化学习和人类反馈进行训练。我使用了OpenAI APIs上的gpt-3.5-turbo[16]。

  • GPT-4(2023年,约100T 参数)。我使用了OpenAI APIs上的gpt-4

    论文:GPT-4 Technical Report[17]

在本文的所有实验中,除非特别提到,否则针对每个唯一的Prompt,我调用每个GPT模型五次,这样主要考虑其生成内容具有的随机性。

01 远距离联想测验: 连接不相关的词

远距离联想测验(Remote Associates Test,RAT)是Martha Mednick于1962年开发的一种创造力测试。这个测试主要衡量收敛性思维,也就是说每个问题都只有一个“正确”的答案。

给定三个看似不相关的单词,参与者必须找到第四个单词来连接这三个单词。 例如,“dream”、“break”和“light”可以通过单词“day”(daydream,daybreak,daylight)进行连接。单词“sense”、“courtesy”和“place”可以通过单词“common”连接。

我从Remote Associates Test网站收集了许多单词三元组(triplets),总共有312个问题。每个问题的难度都评级在非常容易到非常困难的一个范围内。

图片

Remote Associates Test网站上的远距离联想测验问题分类

对于每种模型和每个单词三元组,我都使用了以下Prompt模板。考虑到模型回答的随机性,我调用了每个模型5次。

    You are given three words. Think of a fourth word that is somehow related to each of the first three words. First give the answer ("Answer") then explain your reasoning ("Reason").

    Words: {Word1}, {Word2}, {Word3}
  • 1
  • 2
  • 3

新GPT模型在远距离联想测验中得分更高

我计算了每个版本的GPT模型生成的答案正确率,能够发现较新版本的GPT模型生成的正确答案更多,这并不令人意外。

图片

按问题的难度水平划分对模型性能进行分析表明,较新的GPT模型在每个难度区间上的表现都比旧模型更好。虽然较新的GPT模型在难度为困难的问题上表现优于之前版本的模型,但是对处理困难问题的改进程度比处理容易的问题小得多。这意味着即使是GPT-4也会在难度为困难的问题上遇到困难。

图片

根据Remote Associates Test网站描述,“一般人可以解决大多数难度为容易的题目,大约一半的中等难度题目,很少有难题。”该网站没有公布正式的统计数据,但快速浏览可以发现,GPT-4确实解决了大约一半的“medium”难度题目和一些难度为“hard”的题目,成为唯一与人类水平接近的模型。其他GPT模型的表现都不如人类。

几种例外情况:GPT-2回复正确而GPT-4回复错误

虽然发生频率不高,但有一些问题,2019年的GPT-2模型能够生成正确答案,而2023年的GPT-4模型无法解决。在我们的测试中有8个这样的问题(完整列表附在文章结尾的附录中)。

An easy question

Words: cottage / brick / cake

GPT-2: “cheese” [correct answer]

GPT-4: “layer”

A medium question

Words: cat / number / phone

GPT-2: “call”

GPT-4: “dial”

A hard question

Words: through / disk / way

GPT-2: “drive” [correct]

GPT-4: “circle”

A very hard question

Words: land / hand / house

GPT-2: “farm” [correct]

GPT-4: “property”

请注意,对于这些问题,GPT-4的答案都并非是不合理的。事实上,在不知道正确答案的情况下,你可能会认为GPT-4的答案有可能与这三个单词具有联系。如果你这么想,你并没有错。我将在下一节中介绍这个问题。

GPT-4是回答错了还是只是在跳出框架思考?

GPT-4回答了一半以上的问题,可能都有充分的理由。我要求GPT-4解释其每个答案。然后,我看到了一些难度为“Very Hard”的问题的解释是错误的。

Words: artist / hatch / route

  • 正确答案: “escape”
  • GPT-4 的回答: “map”
    The word "artist" might bring to mind the idea of creating something, perhaps even a visual representation of something. Maps are a common form of visual representation that require a degree of artistic skill to create.

    The word "hatch" could refer to the act of opening something or bringing something into existence. A map is a type of blueprint or plan, often used to navigate new territory or chart out a course of action. 

    The word "route" is related to direction and movement, which can be plotted and tracked on a map. A map can help you determine the best route to take when traveling, and can also provide information about the routes others have taken in the past.

    All in all, "Map" seems to be a word that fits well with each of the three initial words, as it encapsulates the ideas of artistic creation, planning and direction, and movement and navigation.
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7

GPT-4解释为什么“map”与“artist / hatch / route”联系紧密的原因是能够令我赞同的。

以下是另一个例子:

Words: fork / dark / man

  • 正确答案: “pitch”
  • GPT-4 的回答: “shadow”
    The word "fork" can be associated with division or branching, such as a fork in the road. Shadows can also be seen as a type of division, as they represent the absence of light.

    The word "dark" refers to the absence of light. Shadows are created when light is blocked by an object, and can often appear darker than the surrounding area.

    The word "man" can be associated with the concept of identity or individuality. Shadows can also be used to represent the identity of a person, as they can provide clues about their shape and size.

    Therefore, "Shadow" seems to be a word that fits well with each of the initial three words, as it encapsulates the ideas of division, absence, and identity.
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7

这些例子表现了Remote Associates Test以及其他一般的收敛性创造力测试的缺陷,即 “正确”答案可能不是唯一的“正确”答案。在这些案例中,GPT-4生成了一个“错误”的答案,但只是因为它没有符合所谓的“正确”答案。

事实上,如果我要求GPT-4为三个单词组想出多个第四个单词的答案,它能够给我多个答案,并且似乎都是可行的。

图片

对于任意生成的三个单词组,GPT-4会如何回答

GPT模型有可能在训练数据中见过上述远距离联想测验(Remote Associates Test,RAT)的问题。那么,如果给出任意生成的三个单词,GPT-4会如何回答呢?在本节中,我构建了自己的“remote association”测试并主观地评估输出。

我列出了最常用的《英语单词10000词》清单[18]。然后我随机从这份清单中选取三个单词,让GPT-4提供将这些单词联系在一起的第四个单词。有些三个单词的组合非常奇怪且不相关,但是GPT-4总能找到将它们联系在一起的方法。建议读者在阅读GPT-4生成的结果之前先尝试这些例子!

在看完接下来的几个例子后,你应该可以做出判断——GPT-4是跳出框架思考?还是只是敷衍了事地回答?(本文末尾的附录中展示了更长的例子列表)

⛑️ Health

这个回答听起来相当令人信服。但有趣的是,“健康监测(health surveillance)”的定义几乎照搬自CDC网站关于公共卫生监测介绍的内容[19]。

Public health surveillance is “the ongoing, systematic collection, analysis, and interpretation of health-related data essential to planning, implementation, and evaluation of public health practice.” — Field Epidemiology

(from the CDC website)

    Words: dietary / surveillance / born

    Answer: Health

    Reason: 
    1. Dietary - A person's diet is directly related to their health, as it can affect their overall well-being, energy levels, and risk for certain diseases.
    2. Surveillance - Health surveillance is the ongoing, systematic collection, analysis, and interpretation of data essential to the planning, implementation, and evaluation of health practice.
    3. Born - When a person is born, their health is of utmost importance, as it can have long-lasting effects on their development, growth, and overall quality of life.
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/我家自动化/article/detail/621887

推荐阅读
相关标签