赞
踩
先贴上一张transformer的图。注意这张图是模型图,而并非按照模型参数量大小去理解的图。
为了简化计算,我们忽略了偏置矩阵。
在输入层的embedding部分参数量为:nd+md
在自注意力部分的参数量为:(3d+d)*d/h*h =4,在自注意力模块后还有MLP模块,也就是图中的。这部分在原始论文中隐藏层维度为4d,那么参数量为d*4d+4d+4d*d+d=8+5d,同时我们需要乘以注意力模块的数目也就是N,那么整体的参数量为:
N*(12+nd+md+5d),假如我们进一步忽略一次项目,可以粗略估算参数量为12N
那么,也就说,其中相当一部分参数来自于Feed Forward。而并非注意力层
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。