赞
踩
Meta LLaMA3 强势发布,迄今为止功能最强大的公开可用的 LLM。此版本是在 15 万亿个 Token 上预训练的语言模型,具有 8B 和 70B 两种参数规模,可以支持广泛的用户场景,在各种行业基准上取得了最先进的性能,并提供一些了新功能,包括改进的推理能力,这些都是同时期最好的开源模型。除此之外,LLaMA3还有400B参数的模型正在训练中。
训练数据 | 模型参数 | 上下文长度 | GQA | 训练Token数 | 知识截止 | |
---|---|---|---|---|---|---|
Llama 3 | 公开在线数据的新组合。 | 8B | 8k | Yes | 15T+ | 2023 年 3 月 |
公开在线数据的新组合。 | 70B | 8k | Yes | 15T+ | 2023 年 12 月 |
注意:训练Token数仅指预训练数据。
主流的大语言模型都采用了Transformer[架构,它是一个基于多层自注意力(Self-attention)的神经网络模型。
原始的Transformer由编码器(Encoder)和解码器(Decoder)两个部分构成,同时,这两个部分也可以独立使用。例如基于编码器的BERT 模型和基于解码器的GPT模型。
Llama模型与GPT类似,也是采用了基于解码器的架构。在原始Transformer解码器的基础上,Llama进行了如下改动:
具体来说,首先将输入的token序列通过词嵌入(word embedding)矩阵转化为词向量序列。然后,词向量序列作为隐藏层状态依次通过
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。