BERT源码解读，详细写记录从零实现BERT模型_bert模型源码

作者：我家小花儿 | 2024-04-01 11:10:05

踩

bert模型源码

1、参数设置

2、数据预处理

3、预训练任务的数据构建部分（非常重要）

mask部分

（***）为什么在max_pred - 实际mask掉的单词数量上补0

4、模型整体架构

损失函数

1、参数设置


if __name__ == '__main__':
    # BERT Parameters
    maxlen = 30 # 句子的最大长度 cover住95% 不要看平均数 或者99%  直接取最大可以吗？当然也可以，看你自己
    batch_size = 6 # 每一组有多少个句子一起送进去模型
    max_pred = 5  # max tokens of prediction
    n_layers = 6 # number of Encoder of Encoder Layer
    n_heads = 12 # number of heads in Multi-Head Attention
    d_model = 768 # Embedding Size
    d_ff = 3072  # 4*d_model, FeedForward dimension
    d_k = d_v = 64  # dimension of K(=Q), V
    n_segments = 2

max-pred一个句子中最大可以预测多少个token，控制每个句子最多有多少个单词被masked

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/我家小花儿/article/detail/348675