赞
踩
因为我们要用注意力机制来提取多重语意的含义,我们首先定义一个超参数是h也就是head的数量,注意embedding dimension(字向量的维度)必须整除于h!因为我们要把embedding dimension分割成h份。