【GPT2】Language Models are Unsupervised Multitask Learners

作者：人工智能uu | 2024-07-25 17:06:59

踩

language models are unsupervised multitask learners

Paper Link: Language Models are Unsupervised Multitask Learners

在这里插入图片描述

GPT系列文章解读：
【GPT】Improving Language Understanding by Generative Pre-Training
【GPT3】Language Models are Few-Shot Learners

Abstract

问答、机器翻译、阅读理解和摘要等NLP任务，通常都是使用在特定任务数据集上监督学习的方法。我们提出了在百万级的网页数据WebText上无监督地训练模型。给定一篇文档和问题，由这个预训练模型生成的答案在CoQA任务上可以取得55%的F1值，达到甚至超过4个任务中的3个。语言模型的大小对零样本的迁移学习任务是非常重要的。最大的GPT-2模型包含15亿参数，在8个任务上有7个取得了sota结果。这些研究表明，这是一条构建语言处理系统的有效途径，该系统可以从自然发生的演进中学习执行任务。

introduction

提出了语言模型，在下游任务上不需要任何标号样本，也不用调整参数和修改网络结构。
在这里插入图片描述

Approach

Training Dataset

搜集的4500万网页链接中的WebText句子中，一些自然出现的法语英语互译的例子，如下表：
在这里插入图片描述

Model

作者构建了4个模型，词汇量扩展到50257个，文本序列长度从512到1024，更大的batch_size(512)
在这里插入图片描述
最小模型的参数有1.17亿，最大模型参数有15亿个。

Experiments

Language Modeling

和其他的 zero-shot learning model 对比结果：
在这里插入图片描述
GPT-2给出的最可靠的30个自然问题的答案：

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/人工智能uu/article/detail/881295