当前位置:   article > 正文

BERT源码解读,详细写记录从零实现BERT模型_bert模型源码

bert模型源码

目录

1、参数设置

2、数据预处理

3、预训练任务的数据构建部分(非常重要)

mask部分

(***)为什么在max_pred - 实际mask掉的单词数量上补0

4、模型整体架构

损失函数


1、参数设置

  1. if __name__ == '__main__':
  2. # BERT Parameters
  3. maxlen = 30 # 句子的最大长度 cover住95% 不要看平均数 或者99% 直接取最大可以吗?当然也可以,看你自己
  4. batch_size = 6 # 每一组有多少个句子一起送进去模型
  5. max_pred = 5 # max tokens of prediction
  6. n_layers = 6 # number of Encoder of Encoder Layer
  7. n_heads = 12 # number of heads in Multi-Head Attention
  8. d_model = 768 # Embedding Size
  9. d_ff = 3072 # 4*d_model, FeedForward dimension
  10. d_k = d_v = 64 # dimension of K(=Q), V
  11. n_segments = 2

 max-pred一个句子中最大可以预测多少个token,控制每个句子最多有多少个单词被masked

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/我家小花儿/article/detail/348675
推荐阅读
相关标签
  

闽ICP备14008679号