当前位置:   article > 正文

meta-llama/Meta-Llama-3-8B

meta-llama-3-8b

https://huggingface.co/meta-llama/Meta-Llama-3-8B

型号细节

Meta开发并发布了Meta Llama 3家族大型语言模型(LLM),这是一组预训练和指令微调的生成性文本模型,大小为8B和70B参数。Llama 3指令微调模型针对对话用例进行了优化,在常见的行业基准测试中表现优于许多可用的开源聊天模型。此外,在开发这些模型时,我们非常谨慎地优化了有用性和安全性。

模型开发者 Meta

变体 Llama 3有两种尺寸 - 8B和70B参数 - 预训练和指令微调变体。

输入 模型只接受文本输入。

输出 模型只生成文本和代码。

模型架构 Llama 3是一种自回归语言模型,使用优化的transformer架构。经过调整的版本使用监督fine-tuning(SFT)和人工反馈强化学习(RLHF)来实现有用性和安全性方面的人类偏好对齐。

模型 训练数据 参数量 上下文长度 是否使用GQA 标记计数 知识截止日期
Llama 3 新的公开在线数据组合 8B 8k 15T+ 2023年3月
Llama 3 新的公开在线数据组合 70B 8k 2023年12月

Llama 3系列模型。标记计数仅指预训练数据。8B和70B版本都使用Grouped-Query Attention(GQA)来提高推理可扩展

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/笔触狂放9/article/detail/688462
推荐阅读
相关标签
  

闽ICP备14008679号