赞
踩
该论文提出过去基于词向量和词典中的几个问题:
attention权值由输入emb计算
得到权值后对emb进行加权求和,就是这一层的输出了
然后这里说有多个kenel,结果算完后进行sum-pool,但感觉也就是一个multi-head