当前位置:   article > 正文

【全网首发】Transformer模型详解(图解史上最完整版)_transformer模型架构

transformer模型架构


在本文中,我们将试图把模型简化一点,并逐一介绍里面的核心概念,方便大家的理解。

1.Transformer 整体结构
 

    首先介绍 Transformer 的整体结构,下图是 Transformer 用于中英文翻译的整体结构:
Transformer 的整体结构:


     可以看到 Transformer 由 Encoder 和 Decoder 两个部分组成,Encoder 和 Decoder 都包含 6 个 block。Transformer 的工作流程大体如下:
 
      第一步:获取输入句子的每一个单词的表示向量 X,X由单词的 Embedding(Embedding就是从原始数据提取出来的Feature) 和单词位置的 Embedding 相加得到。


     第二步:将得到的单词表示向量矩阵 (如上图所示,每一行是一个单词的表示 x) 传入 Encoder 中,经过 6 个 Encoder block 后可以得到句子所有单词的编码信息矩阵 C,如下图。单词向量矩阵用 Xn×dX_{n\times d} 表示, n 是句子中单词个数,d 是表示向量的维度 (论文中 d=512)。每一个 Encoder block 输出的矩阵维度与输入完全一致。
 

分享一份Transformer实战教程,计算机视觉论文合集,里面的内容相当丰富,我认为,值得大家好好学一学。这套PDF包含Transformer前沿经典论文5000篇以及实战落地、60分钟快速入门,不管你是刚入门的小白还是AI工程师我都建议大家学习起来。

下面是部分截图,点击文末名片关注公众号【迪哥谈AI】发送暗号 888 领取(一定要发暗号 888)
 
声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/小丑西瓜9/article/detail/490283
推荐阅读
相关标签
  

闽ICP备14008679号