赞
踩
基本内容理解的话推荐看一下这篇博客Transformer:注意力机制(attention)和自注意力机制(self-attention)的学习总结,这个博主讲的很细致,比较容易理解。
这里借用一下上述博客的总结:
我补充一下两种计算注意力的方式:
首先是加性注意力计算:
可以看到是将query与key进行线性相加后,通过tanh函数进行归一化之后得到了注意力系数矩阵。
对于点乘注意力计算
是将query与key进行相乘得到,之后会经过一层softmax进行归一化。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。