赞
踩
GPT-2(Language Models are Unsupervised Multitask Learners)。在上文中,我们介绍了GPT-1的模型搭建流程。GPT-1采用的是无监督预训练+有监督微调的两阶段形式生成特定任务的模型。而GPT-2舍弃了GPT-1的有监督微调阶段,仅仅使用无监督预训练获取一个适应多种下游任务的通用语言模型。其实GPT-2的这种思路符合Prompt学习策略。
GPT-2旨在训练出一个通用的语言模型,能够在不进行fine-tuning的情况下仍然能够较好地处理文本翻译、摘要提取、文本分类等常见的下游任务。GPT-2认为在基于大量高质量数据预训练的过程中,模型已经学习到了各种任务的相关信息。
比如训练语料中有““Mentez mentez, il en restera toujours quelque chose,” which translates as, “Lie lie and something will always remain.””这么一段话,通过预训练过程,模型已经有能力进行翻译(translate)任务,只是需要一个合适的引导。即在推理阶段给模型一个任务相关的提示(prompt),比如 “translate English to French”。
无需构造有监督样本进行fine-tuning,也能在文本翻译、摘要生成等多个下游任务取得不错的效果。
Layer Normalization 移动到了每个 Sub-Block 的输入部分,在每个 Self-Attention 之后额外添加了一个 Layer Normalization,最终顺序是:LN, Self-Attention , LN。
采用一种改进的初始化方法,该方法考虑了残差路径与模型深度的累积。在初始化时将 residual layers 的权重按 1 / N 1/\sqrt N 1/N 。的因子进行缩放,其中 N N N是 residual layers 的数量。
无监督预训练可看到的上下文的 context 由512扩展为1024。
Batch Size 大小调整为512。
字典大小设置为50257。
GPT-2使用的是WebText数据集,包含了4500万个链接的文本数据集。经过重复数据删除和一些基于启发式的清理后,它包含略多于800万个文档,总文本容量为 40GB。
最小的模型和 GPT 大小相当,第二小的模型和最大的 BERT 大小相当。最大的模型叫做 GPT-2,它的参数比 GPT 多一个数量级。但即便如此,在 WebText 上任然是欠拟合的。
M代表百万。1M的参数量对应的模型大概40MB。
模型大小 | 层数 | 维度 |
---|---|---|
117M | 12 | 768 |
345M | 24 | 1024 |
762M | 36 | 1280 |
1542M | 48 | 1600 |
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。