当前位置:   article > 正文

【GPT2】Language Models are Unsupervised Multitask Learners

language models are unsupervised multitask learners

Paper Link: Language Models are Unsupervised Multitask Learners

在这里插入图片描述

GPT系列文章解读:
【GPT】Improving Language Understanding by Generative Pre-Training
【GPT3】Language Models are Few-Shot Learners

Abstract

问答、机器翻译、阅读理解和摘要等NLP任务,通常都是使用在特定任务数据集上监督学习的方法。我们提出了在百万级的网页数据WebText上无监督地训练模型。给定一篇文档和问题,由这个预训练模型生成的答案在CoQA任务上可以取得55%的F1值,达到甚至超过4个任务中的3个。语言模型的大小对零样本的迁移学习任务是非常重要的。最大的GPT-2模型包含15亿参数,在8个任务上有7个取得了sota结果。这些研究表明,这是一条构建语言处理系统的有效途径,该系统可以从自然发生的演进中学习执行任务。

introduction

提出了语言模型,在下游任务上不需要任何标号样本,也不用调整参数和修改网络结构。
在这里插入图片描述

Approach

Training Dataset

搜集的4500万网页链接中的WebText句子中,一些自然出现的法语英语互译的例子,如下表:
在这里插入图片描述

Model

作者构建了4个模型,词汇量扩展到50257个,文本序列长度从512到1024,更大的batch_size(512)
在这里插入图片描述
最小模型的参数有1.17亿,最大模型参数有15亿个。

Experiments

Language Modeling

和其他的 zero-shot learning model 对比结果:
在这里插入图片描述
GPT-2给出的最可靠的30个自然问题的答案:
在这里插入图片描述

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/人工智能uu/article/detail/881295
推荐阅读
相关标签
  

闽ICP备14008679号