赞
踩
- 请你介绍一下Transformer模型;
Transformer 结构是一种完全采用注意力或自注意力机制的深度学习模型,可以并行训练 avoid recursion in order to allow parallel computation (to reduce training time)
由 encoder 和 decoder 组成,分别各自有6个相同的层堆叠而成;
- encoder 每个layer 有 2个 sub-layer 组成,分别是
- 多头注意力 multi-head self-attention
- 前馈神经网络并且加了 residual connection 和 layer norm。
- decoder 的每一层是
- 首先用masked multi-head self-attention,
- 再加上和 encoder 做了cross-attention
- 再用前馈神经网络并且加了 residual connection 和 layer norm
---
- Transformer 相对于传统的 RNN 网络有什么好处;
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。