Llama3改进与亮点_llama3的改进

作者：我家小花儿 | 2024-08-22 20:11:14

踩

llama3的改进

0.简介

Meta LLaMA3 强势发布，迄今为止功能最强大的公开可用的 LLM。此版本是在 15 万亿个 Token 上预训练的语言模型，具有 8B 和 70B 两种参数规模，可以支持广泛的用户场景，在各种行业基准上取得了最先进的性能，并提供一些了新功能，包括改进的推理能力，这些都是同时期最好的开源模型。除此之外，LLaMA3还有400B参数的模型正在训练中。

1.改进亮点

参数规模与模型架构：Llama 3提供了8B和70B两种参数规模的模型，参数数量的增加使得模型能够捕捉和学习更复杂的语言模式。同时，Llama 3采用了标准的纯解码器（decoder-only）Transformer架构，并引入了Group Query Attention（GQA）技术，提高了模型的推理效率和处理长文本的能力。
训练数据集的扩展：Llama 3的训练数据集比Llama 2大了7倍，包含了超过15万亿个token，其中包括4倍的代码数据，这使得Llama 3在理解和生成代码方面更加出色。
性能提升：通过改进的预训练和后训练过程，Llama 3在减少错误拒绝率、提升响应对齐和增加模型响应多样性方面取得了显著进步。
安全性增强：引入了Llama Guard 2等新的信任和安全工具，以及Code Shield和CyberSec Eval 2，增强了模型的安全性和可靠性。
多语言支持：Llama 3在预训练数据中加入了超过30种语言的高质量非英语数据，为未来的多语言能力打下了基础。

	训练数据	模型参数	上下文长度	GQA	训练Token数	知识截止
Llama 3	公开在线数据的新组合。	8B	8k	Yes	15T+	2023 年 3 月
	公开在线数据的新组合。	70B	8k	Yes	15T+	2023 年 12 月

注意：训练Token数仅指预训练数据。

2.模型架构

2.1 通用GPT架构

主流的大语言模型都采用了Transformer[架构，它是一个基于多层自注意力（Self-attention）的神经网络模型。

原始的Transformer由编码器（Encoder）和解码器（Decoder）两个部分构成，同时，这两个部分也可以独立使用。例如基于编码器的BERT 模型和基于解码器的GPT模型。

Llama模型与GPT类似，也是采用了基于解码器的架构。在原始Transformer解码器的基础上，Llama进行了如下改动：

为了增强训练稳定性，采用前置的**RMSNorm **作为层归一化方法。
为了提高模型性能，采用**SwiGLU **作为激活函数。
为了更好地建模长序列数据，采用**RoPE **作为位置编码。
为了平衡效率和性能，部分模型采用了分组查询注意力机制**（Grouped-Query Attention, GQA）**。

具体来说，首先将输入的token序列通过词嵌入（word embedding）矩阵转化为词向量序列。然后，词向量序列作为隐藏层状态依次通过

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/我家小花儿/article/detail/1017809