当前位置:   article > 正文

Language Models are Unsupervised Multitask Learners 笔记

language models are unsupervised multitask learners

语言模型是无监督的多任务学习者

摘要

自然语言处理任务,如问题回答、机器翻译、阅读理解和总结,通常是通过任务特定数据集上的监督学习来完成的。我们证明,当语言模型在一个称为WebText的数百万网页的新数据集上训练时,它们可以在没有任何明确监督的情况下开始学习这些任务。当以文档和问题为条件时,语言模型生成的答案在CoQA数据集上达到55F1—在不使用127,000+训练示例的情况下匹配或超过4个基线系统中的3个。语言模型的能力对于零起点任务转移的成功是至关重要的,提高它可以以对数线性的方式提高任务之间的性能。我们最大的模型,GPT-2,是一个1.5B的参数转换器,在零镜头设置下,在8个测试的语言建模数据集中,有7个获得了最先进的结果,但仍然不适合WebText。模型中的样本反映了这些改进,并包含了连贯的文本段落。这些发现为构建语言处理系统提供了一条有希望的道路,该系统可以从自然发生的演示中学习执行任务

Introduction

机器学习系统现在通过使用大数据集、大容量模型和监督学习的组合(Krizhevsky et al., 2012) (Sutskever et al., 2014) (Amodeiet al., 2016)来训练它们。这些系统对数据分布(Recht等,2018)和任务规范(Kirkpatrick等,2017)的变化是脆弱和敏感的。当前的系统更容易被描述为狭隘的专家,而不是称职的通才。我们希望向更通用的系统发展,它可以执行许多任务,最终不需要为每个任务手动创建和标记一个训练数据集。

创建ML系统的主要方法是:收集显示所需任务的正确行为的训练示例数据集,训练系统模仿这些行为,然后在独立且同分布(IID)的保留示例上测试其性能。这有助于在狭隘的专家上取得进展。但

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/秋刀鱼在做梦/article/detail/881291
推荐阅读
相关标签
  

闽ICP备14008679号