赞
踩
BERT-Base: L = 12 , H = 768 , A = 12 L = 12, H = 768, A = 12 L=12,H=768,A=12
基本信息
单个 head 的参数量
多头拼接的参数
总参数量 ( 768 × 768 / 12 × 3 ) × 12 + 12 × 768 / 12 × 768 = 2 , 359 , 296 (768 \times 768/12 \times 3)\times {\color{red}12} + 12 \times 768/12 \times 768 = 2,359,296 (768×768/12×3)×12+12×768/12×768=2,359,296
针对多头注意力的输出,这里使用的是 L a y e r N o r m ( x + S u b l a y e r ( x ) ) LayerNorm(x + Sublayer(x)) LayerNorm(x+Sublayer(x))
进行层标准化需要计算同一层隐层单元中的如上两个参数。
Transformer: Attention is all you need
Layer Normalization: Layer Normalization
BERT: BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。