当前位置:   article > 正文

Transformer 自然语言处理(二)

Transformer 自然语言处理(二)

原文:Natural Language Processing with Transformers

译者:飞龙

协议:CC BY-NC-SA 4.0

第五章:文本生成

基于 Transformer 的语言模型最令人不安的特点之一是它们生成的文本几乎无法与人类写的文本区分开。一个著名的例子是 OpenAI 的 GPT-2,当给出以下提示时:¹

在一个令人震惊的发现中,科学家们发现了一群生活在安第斯山脉偏远、以前未被探索过的山谷中的独角兽。更令研究人员感到惊讶的是,这些独角兽竟然讲着一口流利的英语。

能够生成一篇关于说话的独角兽的引人入胜的新闻文章:

科学家们根据它们独特的角,将这一种群命名为奥维德独角兽。这种四角、银白色的独角兽以前对科学界来说是未知的。现在,经过将近两个世纪的时间,这一奇怪现象的起因终于得到了解决。拉巴斯大学的进化生物学家豪尔赫·佩雷斯博士和几个同伴在探索安第斯山脉时发现了一个没有其他动物或人类的小山谷。佩雷斯注意到山谷中有一个看起来像是天然喷泉的地方,周围有两座岩石和银色的雪峰。佩雷斯和其他人随后进一步探索了山谷。“当我们到达一个山峰的顶部时,水看起来是蓝色的,上面有一些水晶,”佩雷斯说。佩雷斯和他的朋友们惊讶地看到了独角兽群。这些生物可以从空中看到,而不需要移动太多就能看到它们——它们离得很近,可以触摸到它们的角。在检查这些奇怪的生物时,科学家们发现这些生物还能说一些相当规范的英语……

这个例子之所以如此引人注目,是因为它是在没有任何明确监督的情况下生成的!通过简单地学习预测数百万网页文本中的下一个单词,GPT-2 及其更强大的后代如 GPT-3 能够获得广泛的技能和模式识别能力,可以通过不同类型的输入提示来激活。图 5-1 显示了语言模型有时在预训练期间会接触到需要仅基于上下文预测下一个标记的任务序列,比如加法、单词重组和翻译。这使它们能够在微调期间或(如果模型足够大)在推断期间有效地转移这些知识。这些任务并不是提前选择的,而是在用于训练百亿参数语言模型的庞大语料库中自然发生的。

LM Meta Learning

图 5-1。在预训练期间,语言模型会接触到可以在推断期间进行调整的任务序列(由汤姆·布朗提供)

Transformer 生成逼真文本的能力已经导致了各种各样的应用,比如InferKitWrite With TransformerAI Dungeon,以及像Google 的 Meena这样的对话代理,甚至可以讲一些陈腐的笑话,就像图 5-2 中所示的那样!²

Meena

图 5-2。左边是米娜,右边是一个人,米娜正在讲一个陈腐的笑话(由丹尼尔·阿迪瓦达纳和 Thang Luong 提供)

在本章中,我们将使用 GPT-2 来说明语言模型的文本生成工作原理,并探讨不同的解码策略如何影响生成的文本。

生成连贯文本的挑战

到目前为止,在本书中,我们已经专注于通过预训练和监督微调的组合来解决 NLP 任务。正如我们所看到的,对于诸如序列或标记分类的任务特定头部,生成预测是相当简单的;模型产生一些 logits,我们要么取最大值得到预测类,要么应用 softmax 函数以获得每个类的预测概率。相比之下,将模型的概率输出转换为文本需要解码方法,这引入了一些对文本生成独特的挑战:

  • 解码是迭代进行的,因此涉及的计算量比简单地通过模型的前向传递一次传递输入要多得多。

  • 生成的文本的质量多样性取决于解码方法和相关超参数的选择。

为了理解这个解码过程是如何工作的,让我们从检查 GPT-2 是如何预训练和随后应用于生成文本开始。

与其他自回归因果语言模型一样,GPT-2 被预训练来估计在给定一些初始提示或上下文序列

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/2023面试高手/article/detail/360648
推荐阅读
相关标签