赞
踩
模型名称 | 参数 | 隐藏层维度 | 层数 | 注意力头数 | 训练数据 | 位置编码 | 激活函数 | 归一化方法 | 注意力机制 | 词表大小 | 最大长度 |
LLAMA | 6.7B | 4096 | 32 | 32 | 1T | RoPE | SwiGLU | RMSNorm | 多头注意力机制(MHA) | 32000 | 2048 |
(pre-norm) | |||||||||||
Attention Layer和MLP的输入上使用 | |||||||||||
13.0B | 5120 | 40 | 40 | 1T | RoPE | SwiGLU | RMSNorm | 多头注意力机制(MHA) | 32000 | 2048 | |
(pre-norm) | |||||||||||
Attention Layer和MLP的输入上使用 | |||||||||||
32.5B | 6656 | 60 | 52 | 1.4T | RoPE | SwiGLU | RMSNorm | 多头注意力机制(MHA) | 32000 | 2048 | |
(pre-norm) | |||||||||||
Attention Layer和MLP的输入上使用 | |||||||||||
65.2B | 8192 | 80 | 64 | 1.4T | RoPE | SwiGLU | RMSNorm | 多头注意力机制(MHA) | 32000 | 2048 | |
(pre-norm) | |||||||||||
Attention Layer和MLP的输入上使用 | |||||||||||
LLAMA2 | 7B | 4096 | 32 | 32 | 2.0T | RoPE | SwiGLU | RMSNorm | 多头注意力机制(MHA) | 32000 | 4096 |
(pre-norm) | |||||||||||
Attention Layer和MLP的输入上使用 | |||||||||||
13B | 5120 | 40 | 40 | 2.0T | RoPE | SwiGLU | RMSNorm | 多头注意力机制(MHA) | 32000 | 4096 | |
70B | 8192 | 80 | 64 | 2.0T | RoPE | SwiGLU | RMSNorm | Group Query Attention | 32000 | 4096 | |
group=8 | |||||||||||
chatglm-6B | 6.2B | 4096 | 28 | 32 | 1T | RoPE | GELU | layer norm(post-norm) | 多头注意力机制(MHA) | 130528 | 2048 |
2d位置编码 | |||||||||||
chatglm2-6B | 6.2B | 4096 | 28 | 32 | 1.4T | RoPE | SwiGLU | RMSNorm | Multi-Query Attention (MQA) | 65024 | 32768 |
推理时,舍弃2d位置编码,回归decoder-only | (post-norm) | ||||||||||
baichuan-7b | 7B | 4096 | 32 | 32 | 1.2T | RoPE | SwiGLU | RMSNorm | 多头注意力机制(MHA) | 64,000 | 4096 |
(pre-norm) | |||||||||||
baichuan-13b | 13B | 5120 | 40 | 40 | 1.4T | ALiBi | SwiGLU | RMSNorm | 多头注意力机制(MHA) | 64,000 | 4096 |
(pre-norm) | |||||||||||
baichuan2-7b | 7B | 4096 | 32 | 32 | 2.6T | RoPE | SwiGLU | RMSNorm | 多头注意力机制(MHA) | 125,696 | 4096 |
(pre-norm) | |||||||||||
baichuan2-13b | 13B | 5120 | 40 | 40 | 2.6T | ALiBi | SwiGLU | RMSNorm | 多头注意力机制(MHA) | 125,696 | 4096 |
(pre-norm) | |||||||||||
Qwen-7B | 7B | 4096 | 32 | 32 | 2.2T | RoPE | SwiGLU | RMSNorm | 多头注意力机制(MHA) | 151851 | 2048 |
(pre-norm) |
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。