NLP-生成模型-2017-Transformer（一）：Encoder-Decoder模型【非序列化；并行计算】【O(n²·d)，n为序列长度，d为维度】【用正余弦函数进行“绝对位置函数式编码”】_transformer encoder-decoder

作者：花生_TL007 | 2024-06-11 17:47:06

踩

transformer encoder-decoder

一、Transformer 概述

在2017年《Attention Is All You Need》论文里第一次提出Transformer之前，常用的序列模型都是基于卷积神经网络或者循环神经网络，表现最好的模型也是基于encoder- decoder框架的基础加上attention机制。

2018年10月，Google发出一篇论文《BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding》, BERT模型横空出世, 并横扫NLP领域11项任务的最佳成绩!

而在BERT中发挥重要作用的结构就是Transformer, 之后又相继出现XLNet，RoBERT等模型击败了BERT，但是他们的核心没有变，仍然是：Transformer.

相比之前占领市场的LSTM和GRU模型，Transformer有两个显著的优势:

测评比较图:

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/花生_TL007/article/detail/704195