赞
踩
结构内部:
embedding和postitional encoding(位置编码)
为什么需要位置编码:如RNN每一time steps共享一套参数,串行输入输出,而transformer采用可以并行出入几个单词或者一串句子,优点是处理效率高,缺点是无法表示时序关系,所以要对输入的embedding加上postitional encoding。
最终输入的数据:
2.2.1 基本的注意力机制
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。