赞
踩
目录
(***)为什么在max_pred - 实际mask掉的单词数量上补0
- if __name__ == '__main__':
- # BERT Parameters
- maxlen = 30 # 句子的最大长度 cover住95% 不要看平均数 或者99% 直接取最大可以吗?当然也可以,看你自己
- batch_size = 6 # 每一组有多少个句子一起送进去模型
- max_pred = 5 # max tokens of prediction
- n_layers = 6 # number of Encoder of Encoder Layer
- n_heads = 12 # number of heads in Multi-Head Attention
- d_model = 768 # Embedding Size
- d_ff = 3072 # 4*d_model, FeedForward dimension
- d_k = d_v = 64 # dimension of K(=Q), V
- n_segments = 2
max-pred一个句子中最大可以预测多少个token,控制每个句子最多有多少个单词被masked
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。