喵喵爱编程

这个屌丝很懒，什么也没留下！

热门标签

热门文章

当前位置: article > 正文

BERT参数量计算_bert模型参数量怎么算

作者：喵喵爱编程 | 2024-07-14 19:52:59

赞

踩

bert模型参数量怎么算

在这里插入图片描述

模型概况：

BERT-Base: $L = 12, H = 768, A = 12$

参数计算：

PART 01：input embedding

Token Embedding: $30522 \times 768$
Position Embedding: (max_length) $512 \times 768$
Segment Embedding: $\times 768$
总参数量 $\times 768 = 23,835,648$

PART 02：Multi-Head Attention

基本信息
- 12个head
- 生成 Q K V 3个向量
单个 head 的参数量
- $768 \times 768/12 \times 3$
多头拼接的参数
- $12 \times 768/12 \times 768$
总参数量 $768 \times 768/12 \times 3)\times {\color{red}12} + 12 \times 768/12 \times 768 = 2,359,296$

PART 03：Add & Norm （第一次）

基本信息
- 针对多头注意力的输出，这里使用的是 $L a y e r N o r m (x + S u b l a y e r (x))$
  
  进行层标准化需要计算同一层隐层单元中的如上两个参数。
总参数量： $768 \times 2 = 1,536$

PART 04：Feed Forward

公式 $FFN(x)=max(0, xW_{1}+b_{1})W_{2}+b_{2}$
论文指明，feed-forward/filter size 设置为 4H（即 $\times 768 = 3072$ ）
第一层参数： $768 \times 3072 + 3072$
第二层参数： $3072 \times 768 + 768$
总参数量： $768 \times 3072 + 3072)+ (3072 \times 768 + 768)= 4,722,432$

PART 05：Add & Norm （第二次）

与第一次相同，参数量为 $768 \times 2 = 1,536$

计算结果：

由于 PART 02-05 在 BERT-Base 模型中共有 12 个 Encoder
因此，参数总量为：
$\times 12 = 108,853,248$

参考论文

Transformer: Attention is all you need
Layer Normalization: Layer Normalization
BERT: BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/喵喵爱编程/article/detail/826132

推荐阅读

相关标签

Copyright © 2003-2013 www.wpsshop.cn 版权所有，并保留所有权利。

闽ICP备14008679号