赞
踩
模仿人脑机制,时间空间注意力
为了解决序列增长的注意力不集中的问题
依托于encoder-decoder
总述
三个阶段
query/key/value
1:相似性度量 计算(点积 余弦相似度 MLP)
2:softmax归一化计算权重
3:加权求和得到中间attention语义值
引自:https://blog.csdn.net/TG229dvt5I93mxaQ5A6U/article/details/78422216
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。