赞
踩
Transformer类的模型目前在自然语言处理任务中大放异彩,部分任务已超越人类水平。本文将Transformer分为三大类别,分别是seq2seq、Autoregressive(AR)和Autoencoding(AE),以及介绍了BERT、DeBERTa、GPT、BART等等各种transformer模型。
seq2seq属于encoder-decoder结构的一种,基本思想就是利用两个RNN,一个RNN作为encoder,另一个RNN作为decoder。这种结构的模型对于翻译等语言任务很好。
(1) 对于翻译任务,第一次引入注意力机制的是[Bahdanau et al.2015]《Neural machine translation by jointly learning to align and translate》,翻译任务是将源语句翻译成目标语句,该方法在decoder中引入了注意力机制,decoder决定注意源语句的哪一部分,主要是关注对齐(align)。是seq2seq+attention模型。
可参考本人写的:https://blog.csdn.net/zephyr_wang/article/details/112759894
(2) Global Attention和Local Attention,由《Effective Approaches to Attention-based Neural Machine Translation》发表,翻译任务是将源语句翻译成目标语句,其中Global方法是源语句的所有单词参与注意力,而local只是源语句的一部分参与。是seq2seq+attention模型。
可参考本人写的:https://blog.csdn.net/zephyr_wang/article/details/113737294。
Transformer来自google论文《Attention is all you need》。该模型仅仅依靠attention机制,提出了self-attention。Transformer是第一个只依靠self-attention来计算输入和输出的转换模型,没有使用RNN或者卷积网络。可参考本人写的文章:https://blog.csdn.net/zephyr_wang/article/details/106334196。
分为三大类别,分别是seq2seq、Autoregressive(AR)和Autoencoding(AE)。
参考:https://huggingface.co/transformers/model_summary.html
Autoregressive(AR)语音模型和Autoencoding(AE)是目前最成功的两个预训练语言模型。
AR模型是经典的语言模型,基于前面的单词预测后面的单词,mask只是用来保证注意力头只看到其之前的文本,一般采用transformer的decoder。如GPT模型。
AE模型不是进行明确的概率评估,而是从破坏的输入恢复原数据。最知名的例子是BERT。给定输入,其中的一部分是被mask替换掉,模型然后被训练来恢复原数据。这对应着transformer的encoder部分。
可参考本人写的一些模型翻译文章:
GPT:https://blog.csdn.net/zephyr_wang/article/details/113430006
GPT-2: https://blog.csdn.net/zephyr_wang/article/details/113748490
XLNet: https://blog.csdn.net/zephyr_wang/article/details/108846710
可参考本人写的一些模型翻译文章:
BERT:https://blog.csdn.net/zephyr_wang/article/details/108866911
ALBERT:https://blog.csdn.net/zephyr_wang/article/details/113078952
RoBERTa:https://blog.csdn.net/zephyr_wang/article/details/113122006
XLM:https://blog.csdn.net/zephyr_wang/article/details/112655763
ELECTRA:https://blog.csdn.net/zephyr_wang/article/details/115415410
DeBERTa:https://blog.csdn.net/zephyr_wang/article/details/113776734
SEQ2SEQ:Encoder+ decoder。
可参考本人写的一些模型翻译文章:
BART:https://blog.csdn.net/zephyr_wang/article/details/113485860
ProphetNet:https://blog.csdn.net/zephyr_wang/article/details/113063268
截至2021年2月7日的结果,目前DeBERTa效果最好,比赛网站https://gluebenchmark.com/leaderboard。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。