当前位置:   article > 正文

大模型的能力篇_大模型具备哪些能力

大模型具备哪些能力

2.1

  “Adaptation”一词是用来指代将语言模型转化为任务模型的过程。这个过程需要一下两个的输入:

  1. 任务的自然语言描述。
  2. 一组训练实例(输入-输出对)

  主要是有两种方式来进行适应:

  1. 训练:标准的有监督的学习。
  2. 提示(上下文学习)这个也可以进一步细分为零样本学习(ps;感觉这种就像对模型的一个检测,用来大致确认哪个部分需要优化),单样本学习,少样本学习。

2.1.1

困惑度

语言模型在昨天的学习中,可以知道是一种对令牌序列的条件概率。那么对于令牌中的文本我们该怎么分配概率呢,比如:i am the best。这时我们会对每一个单词分配概率,此时这一条序列的概率就是他们的联合分布概率了,每一个单词的概率就是在这个条件下的条件概率。可如果,此时的文本是i am the b  。我们又怎么让语言模型去合理的构造这个语句呢。我们通过引入困惑度来预测这个的平均不确定性。它的定义是:

        

N其实表示的是测试集中的总词数,x1,x2,x3,x4...是我们测试集中的词序列。在文中提到说“一个优秀的语言模型总是可以准确的预测测试数据中的词序列,因此他的困惑度很低。”以我看来,因为P(x1,x2,...,xN)这个概率越大,代表他预测的可能性更高,而后因为负次方的存在,它处分母的位置,分母越大,分数越小,困惑度越小。

几何平均:

      一般是不采用算数平均的,这个可能会导致我们的测试数据出现被分配为0的概率,这个概率可能会被其他概率抵消掉。我觉得如果在这种情况下,可能这个数据在后面不再出现,这也违背了我们测试数据的初衷了。采用几何平均的话,每一个测试数据都可以被平等的对待,如果出现一个为0的概率对整体算术平均影响会很大。

这公式中的log()和困惑度有密切的关系,这个表达式代表了编码长度。ps:(根据困惑度的计算公式,这个表达式应该是对2取对数)有个例子很直观:一个长度为3的二进制的字符串可以编码2的3次方,暨8个可能的字符串。那如果困惑度为8的话,那他对序列中的每个词,模型都会考虑8个可能性的词。如果选择的可能性越多,那么这个模型的预测任务就会更复杂,困惑度也会越高。

2.1.1.1

Penn Tree Bank:

这是自然语言处理中的一个经典数据集。实验人员在他的基础上对GPT-3进行适应度测试,结果:GPT-3大幅度的超过了目前最好的结果。虽然存在有一定数据泄露的问题。ps:困惑度足足有降低10,从31.3到20.5。那这个是不是可以数说明搜索到正确的词序列的概率提高了1.5倍呢?

2.1.1.2

LAMBADA

任务:预测句子的最后一个词。

动机:解决这个问题需要对较长的内容进行建模,并对较长的内容有一定的依赖。

实验人员在这次测试中采用了上下文学习的方法,利用(输入-输出对)。结果GPT-3也是超过了之前最好的结果。

2.1.1.3

HellaSwag

动机:评估模型进行常识推理的能力。

任务:从一系列选择中选出最适合完成句子的选项。

这里面采用的做法是用语言模型给每个候选答案打分,并预测“最佳“答案。

研究人员采用了一些启发式方法:未归化一概率,长度归一概率,频率归一概率。

虽然GPT-3没有超过最先进的水平,但是这是建立在完全不在该数据集中训练得到的结果,进步空间巨大,令人十分惊喜。

2.1.2

Quastion answering

这是在考虑(闭卷)问答题,其中输入的是一个问题,输出的是一个答案。模型要通过某种方式(ps:可能是问答的方式?)“知道”答案。在通过TriviaQA,WebQueations,NatrualQuestions。研究人员发现:增加模型大小和增加in-context training实例都有助于提高性能。

2.1.3------2.1.7

这后面主要是介绍了GPT-3在翻译,算术,新闻文章,创造句子,纠正英语语法等方面的应用,引用方面很广泛。我觉得仅仅是GPT-3的应用就已经如此的广泛,如果到了GPT-6,他是否可以称的上为弱人工智能呢,而不是仅仅作为一个语言模型。

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/小丑西瓜9/article/detail/102181
推荐阅读
相关标签
  

闽ICP备14008679号