赞
踩
原文地址:What Are Transformer Models and How Do They Work?
2023 年 4 月 12 日
长话短说:
Transformer 是机器学习的一项新发展,最近引起了很大的关注。他们非常擅长跟踪上下文,这就是为什么他们写的文本有意义。在这篇博文中,我们将介绍它们的架构以及它们的工作方式。
视频播放地址: https://youtu.be/tsbRdJbJi9U
Transformer 模型是机器学习领域最令人兴奋的新发展之一。它们在论文《Attention is All You Need》中进行了介绍。Transformer可以用来写故事、散文、诗歌、回答问题、语言之间的翻译、与人类聊天,甚至可以通过对人类来说很难的考试!但它们是什么?您会很高兴知道 Transformer 模型的架构并不那么复杂,它只是一些非常有用的组件的串联,每个组件都有自己的功能。在这篇文章中,您将学习所有这些组件。
这篇博文包含简单的概念介绍。有关Transformer模型及其工作原理的更详细描述,请查看同样来自Cohere的Jay Alammar的这两篇优秀文章!
简而言之,Transformer有什么作用?想象一下您正在手机上写短信。每个单词之后,您可能会收到建议的三个单词。例如,如果您输入“Hello, how are”,手机可能会建议“you”或“your”等单词作为下一个单词。当然,如果你继续选择手机中的建议单词,你很快就会发现这些单词形成的消息毫无意义。如果您查看每组 3 或 4 个连续单词,它可能有意义,但这些单词不会连接到任何有意义的内容。这是因为手机中使用的模型不包含消息的整体上下文,它只是预测在最后几个单词之后更有可能出现哪个单词。另一方面,Transformer会跟踪正在编写的内容的上下文,这就是为什么他们编写的文本有意义。
手机可以建议短信中使用的下一个单词,但无法生成连贯的文本。
我必须诚实地告诉你,当我第一次发现 Transformer 一次构建一个单词的文本时,我简直不敢相信。首先,这不是人类形成句子和思想的方式。我们首先形成一个基本的想法,然后开始完善它并为其添加文字。这也不是机器学习模型做其他事情的方式。例如,图像不是以这种方式构建的。大多数基于神经网络的图形模型都会形成图像的粗略版本,然后慢慢对其进行细化或添加细节,直到完美为止。那么为什么 Transformer 模型要逐字构建文本呢?一个答案是,因为这确实非常有效。更令人满意的是,因为Transformer非常擅长跟踪上下文,所以他们选择的下一个单词正是它需要继续实现一个想法。
Transformer是如何训练的?事实上,有大量数据,互联网上的所有数据。因此,当您将句子“Hello, how are”输入到Transformer中时,它只是知道,根据互联网上的所有文本,最好的下一个单词是“you”。如果你给它
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。