Llama3相比较前两代的模型（Llama1和Llama2）有哪些升级？几张图简单总结Llama3的训练成本、训练时间、模型架构升级等情况

作者：菜鸟追梦旅行 | 2024-05-06 11:52:45

踩

Llama3是MetaAI开源的最新一代大语言模型。一发布就引起了全球AI大模型领域的广泛关注。这是MetaAI开源的第三代大语言模型，也是当前最强的开源模型。但相比较第一代和第二代的Llama模型，Llama3的升级之处有哪些？本文以图表的方式总结Llama3的升级之处。

首先是模型架构相关的升级。目前，官方没有公开Llama3的技术报告或者论文细节，在官方博客中只给出了一些简单的指标。这里我们对比的是上下文长度和词汇表。

上下文长度每一代都翻倍了，在Llama3中，训练的时候用的就是8K上下文：

在模型架构中另一个值得注意的是词汇表的大幅提高。在Llama1和Llama2中，MetaAI的词汇表都是32K大小，这可能与前两代模型的训练数据差距不大有关。而第三代的Llama3模型的词汇表大小变为128K，也就是说它的tokenizer有了较大的变化。

Llama3的训练数据达到了15万亿，比第一代和第二代Llama模型加在一起还多好几倍。如下图所示，第一代的小一点的模型训练数据是1万亿tokens，而较大的650亿规模的模型训练数据是1.4万亿tokens。到了第二代Llama2系列，训练数据都增长到了2万亿tokens。

到了Llama3模型这里，训练成本的增长更为恐怖，Llama3-8B模型的训练时长比650亿参数规模的Llama1模型还长。结果如下：

Llama3-70B模型目前已经是Chatbot Arena大模型匿名评分最高的开源模型了。在英文的分项测试甚至超过了Claude-Opus模型，十分强悍。

未来，如果4000亿参数规模的Llama3-400B也开源的话，那无疑是给闭源模型企业一颗巨大的炸弹。

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/菜鸟追梦旅行/article/detail/544048