当前位置:   article > 正文

Language Models are Few-Shot Learners

language models are few-shot learners

Abstract

  • 很多 Pretrain + Fine-tuning 的模型在多种 NLP 任务上取得不错效果,虽然这种模式下网络结构是任务无关的,但仍然需要任务特定的 fine-tuning 数据集。
  • 本文说明了增大语言模型可以提高 few-shot 的性能,具体来说,训练了一个 175 billion 参数的 自回归语言模型(GPT-3),并在测试了其 few-shot 性能。
  • GPT-3 没有任何 fine-tuning,在预测阶段也没有任何参数更新,仅根据提供的样本中的文本(示例或指令)来进行任务推断及预测
  • GPT-3 在多项 NLP 任务上表现出相当不错的性能,也在一些任务上还比较吃力。

Introduction

发展趋势

  • 词向量(Word2Vec,GloVe)输入任务特定的网络结构
  • 基于 RNN 和多层表示以及上下文状态被用于生成更强大的表达(依然应用于任务特定架构)
  • 基于 RNN 和 Transformer 的预训练模型(如 GPT, BERT 等)经过 fine-tuning 之后可以直接应用在具体的任
声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/Cpp五条/article/detail/667772
推荐阅读
相关标签
  

闽ICP备14008679号