赞
踩
GPT1使用了无监督预训练-有监督微调的方法,基于Transformer解码器构建了一个在NLP领域上卓有成效的模型;是GPT2和GPT3的基础。
无监督框架
1)框架:使用语言模型进行预训练,使用n-gram方法对当前词进行预测;(使用前k个词进行预测第k个词,最大化出现可能性)
2) GPT和BERT都是使用Transformer作为模型的基础,但是GPT使用的是Transformer的解码器,而BERT使用的是编码器;
3)GPT使用的Transformer解码器的数学表达如下:
其中U表示的是token的上下文向量,We是token的embedding矩阵,Wp是位置编码矩阵;h0表示token的word embedding 和 position embedding的和(每一个tocken由单词含义和位置组成);hl是transformer decoder输出的结果;最后乘以一个WeT进行softmax可以得到分类的概率;
有监督微调
1)已知数据集
C
C
C的格式为
x
1
,
.
.
.
,
x
m
−
>
y
x^1,...,x^m -> y
x1,...,xm−>y,其中
x
1
,
.
.
.
,
x
m
x^1,...,x^m
x1,...,xm为token,y为标签,数据经过预训练模型,输入到softmax层进行分类,得到模型预测结果
GPT3是那个被大家玩儿出花的工作,其参数量达到了1700亿
GPT2的一大卖点是:zero-shot,但是GPT3的工作发现在增加参数量的情况下进行few-shot的效果会更好,也就是说在预训练的模型上给定一定的监督数据进行微调得到的效果会好很多。所以个人认为GPT3的创新性在于使得巨大的网络结构可以应用于各种不同的任务(注意这里的微调不会改变网络的参数,因为参数量巨大微调的时候也不会计算梯度)
GPT3的网络结构和GPT2相同,但是训练数据扩大了100倍,OpenAI在数据处理上下了很多的功夫,包括对底质量数据进行QC、去重等等。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。