赞
踩
Paper Link: Language Models are Unsupervised Multitask Learners
GPT系列文章解读:
【GPT】Improving Language Understanding by Generative Pre-Training
【GPT3】Language Models are Few-Shot Learners
问答、机器翻译、阅读理解和摘要等NLP任务,通常都是使用在特定任务数据集上监督学习的方法。我们提出了在百万级的网页数据WebText上无监督地训练模型。给定一篇文档和问题,由这个预训练模型生成的答案在CoQA任务上可以取得55%的F1值,达到甚至超过4个任务中的3个。语言模型的大小对零样本的迁移学习任务是非常重要的。最大的GPT-2模型包含15亿参数,在8个任务上有7个取得了sota结果。这些研究表明,这是一条构建语言处理系统的有效途径,该系统可以从自然发生的演进中学习执行任务。
提出了语言模型,在下游任务上不需要任何标号样本,也不用调整参数和修改网络结构。
搜集的4500万网页链接中的WebText句子中,一些自然出现的法语英语互译的例子,如下表:
作者构建了4个模型,词汇量扩展到50257个,文本序列长度从512到1024,更大的batch_size(512)
最小模型的参数有1.17亿,最大模型参数有15亿个。
和其他的 zero-shot learning model 对比结果:
GPT-2给出的最可靠的30个自然问题的答案:
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。