赞
踩
2.1
“Adaptation”一词是用来指代将语言模型转化为任务模型的过程。这个过程需要一下两个的输入:
主要是有两种方式来进行适应:
2.1.1
困惑度:
语言模型在昨天的学习中,可以知道是一种对令牌序列的条件概率。那么对于令牌中的文本我们该怎么分配概率呢,比如:i am the best。这时我们会对每一个单词分配概率,此时这一条序列的概率就是他们的联合分布概率了,每一个单词的概率就是在这个条件下的条件概率。可如果,此时的文本是i am the b 。我们又怎么让语言模型去合理的构造这个语句呢。我们通过引入困惑度来预测这个的平均不确定性。它的定义是:
N其实表示的是测试集中的总词数,x1,x2,x3,x4...是我们测试集中的词序列。在文中提到说“一个优秀的语言模型总是可以准确的预测测试数据中的词序列,因此他的困惑度很低。”以我看来,因为P(x1,x2,...,xN)这个概率越大,代表他预测的可能性更高,而后因为负次方的存在,它处分母的位置,分母越大,分数越小,困惑度越小。
几何平均:
一般是不采用算数平均的,这个可能会导致我们的测试数据出现被分配为0的概率,这个概率可能会被其他概率抵消掉。我觉得如果在这种情况下,可能这个数据在后面不再出现,这也违背了我们测试数据的初衷了。采用几何平均的话,每一个测试数据都可以被平等的对待,如果出现一个为0的概率对整体算术平均影响会很大。
这公式中的log()和困惑度有密切的关系,这个表达式代表了编码长度。ps:(根据困惑度的计算公式,这个表达式应该是对2取对数)有个例子很直观:一个长度为3的二进制的字符串可以编码2的3次方,暨8个可能的字符串。那如果困惑度为8的话,那他对序列中的每个词,模型都会考虑8个可能性的词。如果选择的可能性越多,那么这个模型的预测任务就会更复杂,困惑度也会越高。
2.1.1.1
Penn Tree Bank:
这是自然语言处理中的一个经典数据集。实验人员在他的基础上对GPT-3进行适应度测试,结果:GPT-3大幅度的超过了目前最好的结果。虽然存在有一定数据泄露的问题。ps:困惑度足足有降低10,从31.3到20.5。那这个是不是可以数说明搜索到正确的词序列的概率提高了1.5倍呢?
2.1.1.2
LAMBADA
任务:预测句子的最后一个词。
动机:解决这个问题需要对较长的内容进行建模,并对较长的内容有一定的依赖。
实验人员在这次测试中采用了上下文学习的方法,利用(输入-输出对)。结果GPT-3也是超过了之前最好的结果。
2.1.1.3
HellaSwag
动机:评估模型进行常识推理的能力。
任务:从一系列选择中选出最适合完成句子的选项。
这里面采用的做法是用语言模型给每个候选答案打分,并预测“最佳“答案。
研究人员采用了一些启发式方法:未归化一概率,长度归一概率,频率归一概率。
虽然GPT-3没有超过最先进的水平,但是这是建立在完全不在该数据集中训练得到的结果,进步空间巨大,令人十分惊喜。
Quastion answering
这是在考虑(闭卷)问答题,其中输入的是一个问题,输出的是一个答案。模型要通过某种方式(ps:可能是问答的方式?)“知道”答案。在通过TriviaQA,WebQueations,NatrualQuestions。研究人员发现:增加模型大小和增加in-context training实例都有助于提高性能。
2.1.3------2.1.7
这后面主要是介绍了GPT-3在翻译,算术,新闻文章,创造句子,纠正英语语法等方面的应用,引用方面很广泛。我觉得仅仅是GPT-3的应用就已经如此的广泛,如果到了GPT-6,他是否可以称的上为弱人工智能呢,而不是仅仅作为一个语言模型。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。