赞
踩
作者:禅与计算机程序设计艺术
“Language Models are Few-shot Learners”这一主题引起了很大的轰动。最近,在NLP界掀起了一股“language model few shot learning”的热潮。“Few shot learning”即为任务的训练集小于支持集(support set)。近年来,基于deep neural network的language model的应用取得了长足的进步。然而,如何解决任务训练中的不足、如何有效利用少量样本进行学习、如何建模使得语言模型具备更好的泛化能力等问题,仍然是一个重要课题。因此,基于语言模型的“few shot learning”研究持续蓬勃发展。
Radford, Graves, and Kiros等人的论文[1],围绕着这一课题展开,首次将language model与“few shot learning”相结合。他们提出了一种新的learning to learn的方法,能够使language model具备更强的学习能力,能够有效利用少量样本进行学习。为了证明其有效性和效果,作者在两个任务上进行了实验验证,一是英文机器翻译任务,二是目标检测任务。实验结果表明,这种方法能够比传统的方法更好地学习到语言信息,并对目标检测任务也有所帮助。
在这篇文章中,我们将详细介绍Radford, Graves, and Kiros等人的论文。首先,我们将介绍一下什么是language model,它又称作自编码器(autoencoder),它可以把输入数据通过中间隐层编码成一个固定长度的向量表示形式,同时还可以通过反向传播过程学习到数据的原始分布。语言模型能够对文本、音频或其他高维数据进行建模,并且能够生成新的文本或语言。之后,我们会介绍什么是“few shot
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。