当前位置:   article > 正文

什么多头注意力机制(multi head attention)_多头注意力为什么要多头

多头注意力为什么要多头

什么多头注意力机制(multi head attention)

为什么是多头呢?

因为我们要用注意力机制来提取多重语意的含义,我们首先定义一个超参数是h也就是head的数量,注意embedding dimension(字向量的维度)必须整除于h!因为我们要把embedding dimension分割成h份。

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/空白诗007/article/detail/907032
推荐阅读
相关标签
  

闽ICP备14008679号