当前位置:   article > 正文

LLaMA v1/2模型结构总览_llma模型结构

llma模型结构

LLaMA v1/2模型结构总览

孟繁续

目录

收起

结构

Group Query Attention(V2 only)

RMSNorm

SwiGLU

RoPE

llama2 出来了,并且开源可商用,这下开源社区又要变天了。快速看一下官网以及paper,看看llamav2相比v1有什么更新吧:

  1. 预训练语料从1->2 Trillion tokens
  2. context window 长度从2048->4096
  3. 收集了100k人类标注数据进行SFT
  4. 收集了1M人类偏好数据进行RLHF
  5. 在reasoning, coding, proficiency, and knowledge tests上表现超越MPT和Falcon
  6. 和falcon一样,使用了Group query attention,节省cache

LLaMA现在已经是开源社区里炙手可热的模型了,但是原文中仅仅介绍了其和标准Transformer的差别,并没有一个全局的模型介绍。找了找其他博客也都是和原文一样,没有介绍模型的结构总览。因此打算写这篇文章,争取让读者不参考任何其他资料把LLaMA的模型搞懂。

结构

如图所示为LLaMA的示意图,由Attention和MLP层堆叠而成:

模型的主要特点为:

  1. 前置的RMSNorm,
  2. 在Q、K上使用RoPE旋转式位置编码,
  3. 使用causal mask保证每个位置只能看到前面的tokens,
  4. LLaMA可以将更早的K、V拼接到当前K、V前面,可以用Q查找更早的信息,为了清晰没在图中画出来。
  5. MLP表达式: ,其中down, up, gate都是线性层
  6. V2 context window 4096,使用了Group Query Attention。

LLaMA各个不同大小的结构设置如下表所示。其中最大的65B的LLaMA用了2048张80GB的A100,batch size为4百万,训练一次需要21天。

paramsdimensionn headsn layerslearning raten tokensA100-hours
6.7B409632323.0e−41.0T82432
13.0B512040403.0e−41.0T135168
32.5B665652601.5e−41.4T530432
65.2B819264801.5e−41.4T530432

Group Query Attention(V2 only)

自回归模型生成回答时,需要前面生成的KV缓存起来,来加速计算。多头注意力机制(MHA)需要的缓存量很大,Multi-Query Attention指出多个头之间可以共享KV对Group Query Attention没有像MQA一样极端,将query分组,组内共享KV,效果接近MHA,速度上与MQA可比较。p.s. 这个技术falcon已经用上了,当时falcon说自己用的是multi query attention,因为当group=1时,GQA和MQA是等价的。falcon支持设置不同的G。

RMSNorm

这是在BERT、GPT等模型中广泛使用的LayerNorm:

RMSNorm(root mean square)发现LayerNorm的中心偏移没什么用(减去均值等操作)。将其去掉之后,效果几乎不变,但是速度提升了40%。最终公式为:

注意除了没有减均值,加偏置以外,分母上求的RMS而不是方差。

LLaMA在 Attention Layer和MLP的输入上使用了RMSNorm,相比在输出上使用,训练会更加稳定。

SwiGLU

LLaMA没有使用ReLU,而是使用了SwiGLU,有时也被称为SiLU。公式为: �������(�)∗� ,效果类似平滑版的ReLU:

RoPE

LLaMA使用了Rotary Position Embedding。对于Q的第m个位置向量q,通过以下方法注入位置编码:

�(�,�)=[�0�1...��/2−1��/2��/2+1...��−1]×[���(��0)���(��1)...���(���/2−1)���(��0)���(��1)...���(���/2−1)]+[−��/2−��/2+1...−��−1�0��1...��/2−1]×[���(��0)���(��1)...���(���/2−1)���(��0)���(��1)...���(���/2−1)]

其中 �是值介于[1,0)之间的固定向量。通过以下代码得到了上式中的第二项 ���(���) 和第四项 ���(���) 。

  1. class LlamaRotaryEmbedding(torch.nn.Module):
  2. def __init__(self, dim, max_position_embeddings=2048, base=10000):
  3. super().__init__()
  4. theta = 1.0 / (base ** (torch.arange(0, dim, 2) / dim))
  5. t = torch.arange(max_position_mbeddings)
  6. freqs = torch.einsum("i,j->ij", t, theta)
  7. emb = torch.cat((freqs, freqs), dim=-1)
  8. self.register_buffer("cos_cached", emb.cos())
  9. self.register_buffer("sin_cached", emb.sin())
  10. def forward(self, seq_len=None):
  11. return self.cos_cached[:, :, :seq_len, ...], self.sin_cached[:, :, :seq_len, ...]
  12. # 在LlamaAttention通过以下命令调用:
  13. cos, sin = self.rotary_emb(seq_len=kv_seq_len)

以下代码将q沿着最后一个维度劈成两半,将后一半乘-1,然后连接在第一半之前,就得到了上式第三项。

  1. # 在接下来的apply_rotary_pos_emb函数里调用
  2. def rotate_half(x):
  3. x1 = x[..., : x.shape[-1] // 2]
  4. x2 = x[..., x.shape[-1] // 2 :]
  5. return torch.cat((-x2, x1), dim=-1)

最后通过以下代码得到结合了位置编码的Q,K(K和Q使用同样的方式进行位置编码)。

  1. def apply_rotary_pos_emb(q, k, cos, sin, position_ids):
  2. q_embed = (q * cos[position_ids]) + (rotate_half(q) * sin[position_ids])
  3. k_embed = (k * cos[position_ids]) + (rotate_half(k) * sin[position_ids])
  4. return q_embed, k_embed
  5. # 在LlamaAttention中通过以下命令调用:
  6. query_states, key_states = apply_rotary_pos_emb(query_states, key_states, cos, sin, position_ids)

使用了这么复杂的位置编码,有什么好处呢?从上面的公式可以看出,RoPE形式上是绝对位置编码,即依赖其绝对位置m。

绝对位置编码的优点是计算速度快等,缺点是拓展长度比较麻烦,且绝对位置并没有什么实际意义。而相对位置编码对学习token之间的关系很有意义,比如距离的很远的两个token之间的关联大概率很小,使用相对位置编码往往能够获得更好的效果。此外拓展长度也更容易,因为不论context size多长,只需关注最长距离以内的输入即可。相对位置编码的缺点是没有绝对位置编码计算速度快。

当我们计算Attention时,RoPE可以变成相对位置编码

����,�=��(�,�)×�(�,�)=(�0���(��0)−��/2���(��0))(�0���(��0)−��/2���(��0))+...+(��/2���(��0)+�0���(��0))(��/2���(��0)+�0���(��0))+...=�0�0(���(��0)���(��0)+���(��0)���(��0))+�0��/2(−���(��0)���(��0)+���(��0)���(��0))+��/2�0(−���(��0)���(��0)+���(��0)���(��0))+��/2��/2(���(��0)���(��0)+���(��0)���(��0))+...=�0�0���((�−�)�0)+�0��/2���((�−�)�0)+��/2�0���((�−�)�0)+��/2��/2���((�−�)�0)+...=[�0�0�1�1...��/2−1��/2−1��/2��/2��/2+1��/2+1...��−1��−1]�×[���((�−�)�0)���((�−�)�1)...���((�−�)��/2−1)���((�−�)�0)���((�−�)�1)...���((�−�)��/2−1)]+[−��/2�0−��/2+1�1...−��−1��/2−1�0��/2��1��/2+1...��/2−1��−1]�×[���((�−�)�0)���((�−�)�1)...���((�−�)��/2−1)���((�−�)�0)���((�−�)�1)...���((�−�)��/2−1)]

从上面这个公式可以看出,q和k的attention依赖相对距离m-n。因此RoPE为q、k注入的绝对位置编码,计算得到的attention,却变成了相对位置编码。妙的很,我这里为了不参考其他文章就很容易搞懂LLaMA的结构,简化了很多东西,推荐大家看一看RoPE原作者苏剑林的博客了解更多信息。

本文只关注LLaMA缺失的模型结构方面的介绍,对于文章的翻译可以参考其他的文章,例如靳伟:LLaMA大模型是如何炼成的,或者直接去看原文https://arxiv.org/pdf/2302.13971.pdf。文中参考的代码是huggingface的transformers库实现的版本,并不是Meta官方的代码。受笔者水平限制,如果哪里讲的不对,或者不够清晰易懂,欢迎在评论区与我交流。

编辑于 2023-08-30 09:16・IP 属地美国

LLM(大型语言模型)

llama

llama2

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/小蓝xlanll/article/detail/360443
推荐阅读
相关标签
  

闽ICP备14008679号