当前位置:   article > 正文

LLaMa3横空出世,史上最强开源大模型?又要变天了,一石激起千层浪!_llama3模型

llama3模型

LLaMa3官方介绍-中文版

https://github.com/meta-llama/llama3/blob/main/MODEL_CARD.md

模型细节

Meta开发并发布了Meta Llama 3系列大语言模型(LLMs),这是一个预训练和指令微调的生成文本模型的集合,大小为8和70B。Llama 3指令微调模型针对对话用例进行了优化,并且在常见的行业基准测试中优于许多可用的开源对话模型。此外,在开发这些模型时,我们非常仔细地优化了有用性和安全性。

模型开发者 Meta

变化Llama3有两种尺寸- 8B和70B参数-在预训练和指令微调的变体。

Input模型仅输入文本。

输出模型只生成文本和代码。

模型架构 Llama 3是一个使用优化Transformer架构的自回归语言模型。微调后的版本使用监督微调(SFT)和基于人类反馈的强化学习(RLHF)来与对人类有用和安全的偏好保持一致。

Training Data Params Context length GQA Token count Knowledge cutoff
Llama 3 A new mix of publicly available online data. 8B 8k Yes 15T+ March, 2023
70B 8k Yes December, 2023

Llama3系列模型。Token计数仅指预训练数据。8和70B版本都使用分组查询注意力(GQA)来改进推理的可伸缩性。

模型发布日期 2024年4月18日。

状态这是一个在离线数据集上训练的静态模型。随着我们通过社区反馈提高模型安全性,调整后的模型的未来版本将发布。

预期用途

预期用例
Llama3是为商业和研究使用的英语。指令微调模型用于类似助手的聊天,而预训练模型可以适应各种自然语言生成任务。

超出范围
使用任何方式违反适用的法律或法规(包括贸易合规法律)。以可接受使用政策和Llama3社区许可所禁止的任何其他方式使用。在英语以外的语言中使用。

硬件和软件

训练因素
我们使用自定义训练库、Meta的研究超级集群和生产集群进行预训练。还在第三方云计算上执行微调、注释和评估。

碳足迹预训练使用了累积量
在H100-80GB硬件上计算7.7M GPU小时(TDP为700W)。估计总排放量为2290 tCO2eq,其中100%被Meta的可持续发展计划抵消。

Time (GPU hours) Power Consumption (W) Carbon Emitted(tCO2eq)
Llama 3 8B 1.3M 700 390
Llama 3 70B 6.4M 700 1900
Total 7.7M 2290

预训练期间的二氧化碳排放量。时间:训练每个模型所需的GPU总时间。功耗:根据功耗使用效率调整GPU设备的峰值功率容量。Meta的可持续发展计划直接抵消了100%的排放,而且由于我们公开发布这些模型,预训练成本不需要由其他人承担。

训练数据

概述Llama3是在超过15万亿token 的数据上进行预训练的,这些数据来自公开来源。微调数据包括公开可用的指令数据集,以及超过10M的人工注释示例。预训练和微调数据集都不包括元Meta数据。

数据新鲜度 8B的预训练数据的截止日期分别为2023年3月和70B的模型的截止日期分别为2023年12月。

基准

在本节中,我们将报告Llama 3模型在标准自动基准测试上的结果。对于所有的求值,我们使用内部的求值库。有关方法的详细信息,请参阅(https://github.com/meta-llama/llama3/blob/main/eval_details.md)。

基座预训练模型

Category Benchmark Llama 3 8B Llama2 7B Llama2 13B Llama 3 70B Llama2 70B
General MMLU (5-shot) 66.6 45.7 53.8 79.5 69.7
AGIEval English (3-5 shot) 45.9 28.8 38.7 63.0 54.8
CommonSenseQA (7-shot) 72.6 57.6 67.6 83.8 78.7
Winogrande (5-shot) 76.1 73.3 75.4 83.1 81.8
BIG-Bench Hard (3-shot, CoT) 61.1 38.1 47.0 81.3 65.7
ARC-Challenge (25-shot) 78.6 53.7 67.6 93.0 85.3
Knowledge reasoning TriviaQA-Wiki (5-shot) 78.5 72.1 79.6 89.7 87.5
Reading comprehension SQuAD (1-shot) 76.4 72.2 72.1 85.6 82.6
QuAC (1-shot, F1) 44.4 39.6 44.9 51.1 49.4
BoolQ (0-shot) 75.7 65.5 66.9 79.0 73.1
DROP (3-shot, F1) 58.4 37.9 49.8 79.7 70.2

指令微调模型

Benchmark Llama 3 8B Llama 2 7B Llama 2 13B Llama 3 70B Llama 2 70B
MMLU (5-shot) 68.4 34.1 47.8 82.0 52.9
GPQA (0-shot) 34.2 21.7 22.3 39.5 21.0
HumanEval (0-shot) 62.2 7.9 14.0 81.7 25.6
GSM-8K (8-shot, CoT) 79.6 25.7 77.4 93.0 57.5
MATH (4-shot, CoT) 30.0 3.8 6.7 50.4 11.6

责任和安全

我们相信,开放的人工智能方法会带来更好、更安全的产品,更快的创新和更大的整体市场。我们致力于负责任的人工智能发展,并采取了一系列措施来限制滥用和危害,并支持开源社区。

基础模型是一种功能广泛的技术,可用于各种应用。它们的设计不是为了满足每个开发人员对所有用例的安全级别的偏好,即开箱即用,因为它们的性质在不同的应用程序中是不同的。

相反,负责任的LLM应用程序部署是通过在此类应用程序的整个开发过程中实施一系列安全最佳实践来实现的,从模型预培训、微调到由保障措施组成的系统部署,以根据用例和受众量身定制安全需求。

作为Llama 3版本的一部分,我们更新了我们的负责任的使用指南,概述了开发人员为其应用程序实现模型和系统级安全的步骤和最佳实践。我们还提供了一组资源,包括MetaLlama卫队2Code Shield保护措施。这些工具已被证明可以大大降低LLM系统的剩余风险,同时保持高水平的有用性。我们鼓励开发人员根据他们的需要调整和部署这些保障措施,我们提供了一个参考实现来帮助您开始。

Llama-3 指令

正如在负责任的使用指南中概述的那样,在模型有用性和模型对齐之间的一些权衡可能是不可避免的。开发人员应该对如何权衡对齐的好处以及对其特定用例和受众的帮助进行斟酌。当使用Llama模型时,开发人员应该注意剩余的风险,并根据需要利用额外的安全工具来达到他们用例的正确安全栏。

安全对于该指令调优模型,进行了广泛的红色团队训练,进行了对抗性评估,并实施了安全缓解技术,以降低残余风险。与任何大型语言模型一样,剩余风险可能仍然存在,我们建议开发人员在他们的用例上下文中评估这些风险。与此同时,我们正在与社区合作,使人工智能安全基准标准透明、严格和可解释。

拒绝除了剩余风险,我们非常强调对良性提示的模型拒绝。过度拒绝不仅会影响用户体验,甚至在某些情况下也是有害的。我们听取了开发者社区的反馈,并改进了我们的微调,以确保Llama3比Llama2更不可能错误地拒绝回答提示。

我们建立了内部基准,并开发了缓解措施来限制错误拒绝,使Llama3成为我们迄今为止最有用的模型。

责任发布

除了上面提到的负责任的使用考虑之外,我们还遵循了一个严格的流程,要求我们在做出发布决定之前采取额外的措施防止滥用和重大风险。

滥用

如果您访问或使用Llama3,您同意可接受使用政策。该政策的最新副本可以在https://llama.meta.com/llama3/use-policy/上找到。

关键风险

我们对该模型在这方面的安全性进行了双重评估:

  • 在模型训练期间进行迭代测试,以评估与CBRNE威胁和其他对抗性风险相关的响应的安全性。
  • 请外部CBRNE专家进行一个提升测试,通过参考使用网络搜索(没有模型)可以实现的功能,评估模型准确提供专家知识并减少潜在滥用CBRNE的障碍的能力。

网络安全

我们使用Meta的网络安全评估套件CyberSecEval对Llama3进行了评估,测量了Llama3在用作编码助手时建议不安全代码的倾向,以及Llama3遵从帮助执行网络攻击请求的倾向,其中攻击由行业标准MITRE ATT&CK网络攻击本体定义。在我们的不安全编码和网络攻击帮助测试中,Llama3的表现与[同等编码能力]的模型相同或更安全(https://huggingface.co/spaces/facebook/CyberSecEval)。

儿童安全

利用一个专家小组进行了儿童安全风险评估,以评估该模型产生可能导致儿童安全风险的产出的能力,并就通过精细微调采取的任何必要和适当的风险缓解措施提供信息。我们利用那些专家红队会议,通过Llama3模型开发扩展我们的评估基准的覆盖范围。对于Llama3,我们使用基于目标的方法进行了新的深入讨论,以沿着多个攻击向量评估模型风险。我们还与内容专家合作,在考虑市场特定细微差别或体验的同时,进行红色团队练习,评估潜在的违规内容。

社区

生成式人工智能安全需要专业知识和工具,我们相信开放社区的力量可以加速其进展。我们是开放联盟的积极成员,包括人工智能联盟、人工智能伙伴关系和MLCommons,积极促进安全标准化和透明度。我们鼓励社区采用MLCommons概念证明评估等分类法,以促进安全与内容评估方面的合作和透明度。我们的紫色Llama工具是开源的,供社区使用,并在包括云服务提供商在内的生态系统合作伙伴中广泛分发。我们鼓励社区对我们的Github仓库做出贡献。

最后,我们投入了一系列资源,包括输出报告机制漏洞赏金计划,在社区的帮助下不断改进Llama技术。

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/凡人多烦事01/article/detail/548178
推荐阅读
相关标签
  

闽ICP备14008679号