BERT各个超参数含义_bert的前馈层intermediate_size

作者：AllinToyou | 2024-05-07 10:38:51

踩

bert的前馈层intermediate_size

"attention_probs_dropout_prob": 0.1, #乘法attention时，softmax后dropout概率

"directionality": "bidi", "hidden_act": "gelu", # 激活函数高斯误差线性单元

"hidden_dropout_prob": 0.1, # 隐藏层dropout概率

"hidden_size": 768, # 隐藏单元数

"initializer_range": 0.02, # 权重初始化range

"intermediate_size": 3072, # 升维维度前馈全连接层维度768-3072-768

"max_position_embeddings": 512, # 最大序列长度，比真实的大的多，但不能减

"num_attention_heads": 12, # #在encoder层中的注意头个数

"num_hidden_layers": 12, # 隐藏层数

"pooler_fc_size": 768, # 【CLS】张量维度

"pooler_num_attention_heads": 12,

"pooler_num_fc_layers": 3,

"pooler_size_per_head": 128,

"pooler_type": "first_token_transform",

"type_vocab_size": 2, # segment imbadding

"vocab_size": 21128 # 词汇数

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/AllinToyou/article/detail/548727