当前位置:   article > 正文

对NLP模型的感性认知(一):transformer为基础的结构中究竟哪部分参数多——参数量计算_transformer架构需要参数量

transformer架构需要参数量

先贴上一张transformer的图。注意这张图是模型图,而并非按照模型参数量大小去理解的图。

为了简化计算,我们忽略了偏置矩阵。

在输入层的embedding部分参数量为:nd+md

自注意力部分的参数量为:(3d+d)*d/h*h =4d^2,在自注意力模块后还有MLP模块,也就是图中的。这部分在原始论文中隐藏层维度为4d,那么参数量为d*4d+4d+4d*d+d=8d^2+5d,同时我们需要乘以注意力模块的数目也就是N,那么整体的参数量为:

N*(12d^2+nd+md+5d),假如我们进一步忽略一次项目,可以粗略估算参数量为12Nd^2

 那么,也就说,其中相当一部分参数来自于Feed Forward。而并非注意力层

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/凡人多烦事01/article/detail/345732
推荐阅读
相关标签
  

闽ICP备14008679号