当前位置:   article > 正文

大模型对比_大模型 参数 对比

大模型 参数 对比
大模型对比
模型名称参数隐藏层维度层数注意力头数训练数据位置编码激活函数归一化方法注意力机制词表大小最大长度
LLAMA6.7B409632321TRoPESwiGLURMSNorm多头注意力机制(MHA)320002048
pre-norm)
Attention LayerMLP的输入上使用
13.0B512040401TRoPESwiGLURMSNorm多头注意力机制(MHA)320002048
(pre-norm)
Attention LayerMLP的输入上使用
32.5B665660521.4TRoPESwiGLURMSNorm多头注意力机制(MHA)320002048
(pre-norm)
Attention Layer和MLP的输入上使用
65.2B819280641.4TRoPESwiGLURMSNorm多头注意力机制(MHA)320002048
pre-norm)
Attention Layer和MLP的输入上使用
LLAMA27B409632322.0TRoPESwiGLURMSNorm多头注意力机制(MHA)320004096
pre-norm)
Attention LayerMLP的输入上使用
13B512040402.0TRoPESwiGLURMSNorm多头注意力机制(MHA)320004096
70B819280642.0TRoPESwiGLURMSNormGroup Query Attention320004096
group=8
chatglm-6B6.2B409628321TRoPEGELUlayer normpost-norm)多头注意力机制(MHA)1305282048
2d位置编码
chatglm2-6B6.2B409628321.4TRoPESwiGLURMSNormMulti-Query Attention MQA6502432768
推理时,舍弃2d位置编码,回归decoder-onlypost-norm)
baichuan-7b7B409632321.2TRoPESwiGLURMSNorm多头注意力机制(MHA)64,0004096
(pre-norm)
baichuan-13b13B512040401.4TALiBiSwiGLURMSNorm多头注意力机制(MHA)64,0004096
(pre-norm)
baichuan2-7b7B409632322.6TRoPESwiGLURMSNorm多头注意力机制(MHA)125,6964096
(pre-norm)
baichuan2-13b13B512040402.6TALiBiSwiGLURMSNorm多头注意力机制(MHA)125,6964096
(pre-norm)
Qwen-7B7B409632322.2TRoPESwiGLURMSNorm多头注意力机制(MHA)1518512048
(pre-norm)

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/IT小白/article/detail/457500
推荐阅读
相关标签
  

闽ICP备14008679号