Language Models are Unsupervised Multitask Learners 笔记

作者：秋刀鱼在做梦 | 2024-07-25 17:05:51

踩

language models are unsupervised multitask learners

语言模型是无监督的多任务学习者

摘要

自然语言处理任务，如问题回答、机器翻译、阅读理解和总结，通常是通过任务特定数据集上的监督学习来完成的。我们证明，当语言模型在一个称为WebText的数百万网页的新数据集上训练时，它们可以在没有任何明确监督的情况下开始学习这些任务。当以文档和问题为条件时，语言模型生成的答案在CoQA数据集上达到55F1—在不使用127,000+训练示例的情况下匹配或超过4个基线系统中的3个。语言模型的能力对于零起点任务转移的成功是至关重要的，提高它可以以对数线性的方式提高任务之间的性能。我们最大的模型，GPT-2，是一个1.5B的参数转换器，在零镜头设置下，在8个测试的语言建模数据集中，有7个获得了最先进的结果，但仍然不适合WebText。模型中的样本反映了这些改进，并包含了连贯的文本段落。这些发现为构建语言处理系统提供了一条有希望的道路，该系统可以从自然发生的演示中学习执行任务。

Introduction

机器学习系统现在通过使用大数据集、大容量模型和监督学习的组合(Krizhevsky et al.， 2012) (Sutskever et al.， 2014) (Amodeiet al.， 2016)来训练它们。这些系统对数据分布(Recht等，2018)和任务规范(Kirkpatrick等，2017)的变化是脆弱和敏感的。当前的系统更容易被描述为狭隘的专家，而不是称职的通才。我们希望向更通用的系统发展，它可以执行许多任务，最终不需要为每个任务手动创建和标记一个训练数据集。

创建ML系统的主要方法是:收集显示所需任务的正确行为的训练示例数据集，训练系统模仿这些行为，然后在独立且同分布(IID)的保留示例上测试其性能。这有助于在狭隘的专家上取得进展。但

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/秋刀鱼在做梦/article/detail/881291