当前位置:   article > 正文

Llama3改进与亮点_llama3的改进

llama3的改进

0.简介

Meta LLaMA3 强势发布,迄今为止功能最强大的公开可用的 LLM。此版本是在 15 万亿个 Token 上预训练的语言模型,具有 8B 和 70B 两种参数规模,可以支持广泛的用户场景,在各种行业基准上取得了最先进的性能,并提供一些了新功能,包括改进的推理能力,这些都是同时期最好的开源模型。除此之外,LLaMA3还有400B参数的模型正在训练中。

1.改进亮点

  1. 参数规模与模型架构:Llama 3提供了8B和70B两种参数规模的模型,参数数量的增加使得模型能够捕捉和学习更复杂的语言模式。同时,Llama 3采用了标准的纯解码器(decoder-only)Transformer架构,并引入了Group Query Attention(GQA)技术,提高了模型的推理效率和处理长文本的能力。
  2. 训练数据集的扩展:Llama 3的训练数据集比Llama 2大了7倍,包含了超过15万亿个token,其中包括4倍的代码数据,这使得Llama 3在理解和生成代码方面更加出色。
  3. 性能提升:通过改进的预训练和后训练过程,Llama 3在减少错误拒绝率、提升响应对齐和增加模型响应多样性方面取得了显著进步。
  4. 安全性增强:引入了Llama Guard 2等新的信任和安全工具,以及Code Shield和CyberSec Eval 2,增强了模型的安全性和可靠性。
  5. 多语言支持:Llama 3在预训练数据中加入了超过30种语言的高质量非英语数据,为未来的多语言能力打下了基础。
训练数据模型参数上下文长度GQA训练Token数知识截止
Llama 3公开在线数据的新组合。8B8kYes15T+2023 年 3 月
公开在线数据的新组合。70B8kYes15T+2023 年 12 月

注意:训练Token数仅指预训练数据。

2.模型架构

2.1 通用GPT架构

主流的大语言模型都采用了Transformer[架构,它是一个基于多层自注意力(Self-attention)的神经网络模型。

原始的Transformer由编码器(Encoder)和解码器(Decoder)两个部分构成,同时,这两个部分也可以独立使用。例如基于编码器的BERT 模型和基于解码器的GPT模型。

Llama模型与GPT类似,也是采用了基于解码器的架构。在原始Transformer解码器的基础上,Llama进行了如下改动:

  • 为了增强训练稳定性,采用前置的**RMSNorm **作为层归一化方法。
  • 为了提高模型性能,采用**SwiGLU **作为激活函数。
  • 为了更好地建模长序列数据,采用**RoPE **作为位置编码。
  • 为了平衡效率和性能,部分模型采用了分组查询注意力机制**(Grouped-Query Attention, GQA)**。

具体来说,首先将输入的token序列通过词嵌入(word embedding)矩阵转化为词向量序列。然后,词向量序列作为隐藏层状态依次通过

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/我家小花儿/article/detail/1017809
推荐阅读
相关标签