赞
踩
使用标准的语言建模(用前面的词预测下一个词)目标来最大化下面的似然:
Transformer decoder
。预测第
i
i
i 个词的时候,不会看到后面的词与BERT的区别:BERT 用的不是标准的语言模型,在预测一个被 mask 的词时,既能看到前面的,也能看到后面的,所以使用 Transformer encoder
。预测未来比完形填空更难,GPT
的目标函数更难。(更难,但是天花板更高)
在数据集中,每个序列都有一个 label y y y,我们给出序列,来预测 label
所以就是最大化下面的目标:
我们发现,将语言建模作为微调的辅助目标有助于(a)改进监督模型的泛化,(b)加速收敛。因此,最终的目标为:
在 fine-tuning 阶段唯一的额外参数是 W y W_y Wy 和 对分隔符 token 的 embedding
这里说的是如何将模型用于特定的任务(四个典型任务),其中 start,delim,extract
分别是 开始符,分隔符,抽取符
,都是一些特殊的标记
这里的 Transformer
就是我们训练好的模型,可以看到,做下游任务时都不需要改变模型结构。
是在 BooksCorpus 数据集上训练出来的,里面有7000没有被发表的书
模型大小:用了 12 层 Transformer decoder
,每一层的维度是 768。
Transformer encoder
,每一层维度也是 768。Bert-base 就是跟 GPT 来对比。用了 WebText,有百万级别的文本,最大的 GPT-2 模型有 1.5B 参数。
本文的主要卖点是 zero-shot。
主流任务都是在一个任务上收集一个数据集,然后来训练。这是因为,当前模型的泛化性都不是很好。Bert和GPT提出后,主流是在大的数据集上进行预训练,然后对子任务再 fine-tune。这仍然有两个问题
这导致,模型在扩展到新任务时开销是比较大的。
GPT-2
还是做语言模型,但是在扩展到下游任务时,会有 zero-shot 的设定,不需要再重新训练模型
GPT中,在微调的时候引入了开始符,间隔符等特殊符号,这些是模型在预训练时候没有见到过的(微调的时候会进行学习)。现在 GPT-2 要做的是 zero-shot,模型在做下游任务时不能进行微调,因此不能引入这些特殊符号,否则模型就会很困惑,输入的形式应该更像自然语言,和之前相似。
这就引入了 prompt(McCann et al 2018年提出),让一些自然语言,来充当一些符号的作用。
translate to french, english text, french text
。这里又有明显的起始,分隔,又是正常的自然语言answer the question, document, question, answer
是同样的道理为什么可以工作(可能):
数据:Common Crawl是一个网页抓取项目,抓取网页供大家下载。但是信噪比低,有些网页可能就是垃圾网页。使用了 Reddit(算是一些已经过滤好的网页),最后得到4500万个链接,最终的数据集有800w文本,40GB。
因为数据量很大了,因此可以设计更大的模型。一共设计了 4 个。
和别的做 zero-shot 的方法比
在一些任务上还不错,一些任务上差一些。但是随着模型大小的增加,效果还在变好。
GPT-3的参数量有 175 billion(1750亿),比以往的非稀疏语言模型(权重可以有很多 0,这样是稀疏模型)大十几倍。
GPT-3在做子任务时不需要进行任何梯度更新或微调
在所有的 NLP 任务上都取得了很好的成绩,而且能生成一些新闻的文章(人类很难区分是不是机器写的)
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。