当前位置:   article > 正文

transformer八股文知识点整理_transformer 八股

transformer 八股

- 请你介绍一下Transformer模型

Transformer 结构是一种完全采用注意力或自注意力机制的深度学习模型,可以并行训练 avoid recursion in order to allow parallel computation (to reduce training time)

由 encoder 和 decoder 组成,分别各自有6个相同的层堆叠而成;

- encoder 每个layer 有 2个 sub-layer 组成,分别是

- 多头注意力 multi-head self-attention

- 前馈神经网络并且加了 residual connection 和 layer norm。

- decoder 的每一层是

- 首先用masked multi-head self-attention,

- 再加上和 encoder 做了cross-attention

- 再用前馈神经网络并且加了 residual connection 和 layer norm

---

- Transformer 相对于传统的 RNN 网络有什么好处;

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/不正经/article/detail/313798
推荐阅读
相关标签
  

闽ICP备14008679号