赞
踩
Transformer结构图:
self-attention的机制和原理
- 从上图中可以看到,self-attention可以远距离的捕捉到语义层面的特征(its的指代对象是Law)
- 应用传统的RNN,LSTM,在获取长距离语义特征和结构特征的时候,需要按照序列顺序依次计算,距离越远的联系信息的损耗越大,有效提取和捕获的可能性越小
- 但是应用self-attention时,计算过程中会直接将句子中任意两个token的联系通过一个计算步骤直接联系起来
采用Multi-head Attention的原因
Multi-head Attention的计算方式
Transformer的并行计算
Transformer的特征抽取能力
seq2seq的两大缺陷
Transformer的改进
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。