小白学大模型——Qwen2理论篇

作者：知新_RL | 2024-05-17 06:52:40

踩

小白学大模型——Qwen2理论篇

Transformer Architecture with SwiGLU activation: 不多说，最主流的transformer架构，不变。但是，SwiGLU激活函数是GLU变体，可以让模型学习表达更加复杂的模式。
QKV bias：在Transformer模型中，Q、K、V分别代表查询（Query）、键（Key）和值（Value）。这些向量是通过输入向量与对应的权重矩阵相乘得到的。QKV bias表示在计算Q、K、V时添加可学习的偏置项。
GQA：Grouped-query attention，它是一种插值方法，介于多查询和多头注意力之间，可以在保持接近多头注意力的质量的同时，达到与多查询注意力相当的速度。
Mixture of SWA and Full Attention: SWA指的是Sliding Window Attention，是一种注意力模式，用于处理长序列输入的问题。而full attention则是传统的注意力机制，考虑序列中所有元素的交互。这里的mixture可能指的是这两种注意力机制的结合使用。
Improved Tokenizer Adaptive to Multiple Natural Languages and Code: 这说明模型使用了一种改进的分词器，它不仅适用于多种自然语言，还能处理代码。在自然语言处理和编程语言处理中，分词器用于将文本分解成更小的单位（如词、字符或其他符号），这是理解和处理文本的基础步骤。

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/知新_RL/article/detail/582433