赞
踩
Transformer 于 2017 年问世。已经有很多文章解释了它的工作原理,但我经常发现它们要么过于深入数学,要么过于浅显。
我花在谷歌搜索(或 chatGPT)上的时间和阅读的时间一样多,这不是理解一个主题的最佳方法。这让我写了这篇文章,我试图解释 Transformer 最具革命性的方面,同时保持简洁明了,任何人都可以阅读。
本文假设您对机器学习原理有一般性的了解。
Transformers 代表了序列传导模型的一种新架构。序列模型是一种将输入序列转换为输出序列的模型。该输入序列可以是各种数据类型,例如字符、单词、标记、字节、数字、音素(语音识别),也可以是多模态¹。
在 Transformer 出现之前,序列模型主要基于循环神经网络 (RNN)、长短期记忆 (LSTM)、门控循环单元 (GRU) 和卷积神经网络 (CNN)。它们通常包含某种形式的注意力机制,用于解释序列中各个位置的项目所提供的上下文。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。