赞
踩
LLaMA是由Meta AI发布的大语言系列模型,完整的名字是Large Language Model Meta AI,直译:大语言模型元AI。Llama这个单词本身是指美洲大羊驼,所以社区也将这个系列的模型昵称为羊驼系模型。
Llama、Llama2 和 Llama3 是一系列由 Meta AI 开发的开源大型语言模型(LLMs)。
LLaMA是Meta AI公司于2023年2月发布的大型语言模型。作为该系列的初代模型,Llama 是一个纯粹的基座语言模型,设计目标是提供一个开放且高效的通用语言理解与生成平台。共有 7B
、13B
、33B
、65B
(650 亿)四种版本。
关于训练集,其来源都是公开数据集,无任何定制数据集,保证了其工作与开源兼容和可复现。整个训练数据集在 token 化之后大约包含 1.4T 的 token。其中,LLaMA-65B 和 LLaMA-33B 是在 1.4万亿个 token
上训练的,而最小的模型 LLaMA-7B 是在 1万亿个 token 上训练的。
关于模型性能,LLaMA 的性能非常优异:具有 130 亿参数的 LLaMA 模型「在大多数基准上」可以胜过 GPT-3( 参数量达 1750 亿),而且可以在单块 V100 GPU 上运行;而最大的 650 亿参数的 LLaMA 模型可以媲美谷歌的 Chinchilla-70B 和 PaLM-540B。虽然其他强大的大语言模型通常只能通过有限的API访问,但Meta在非商业许可的情况下发布了LLaMA的模型权重,供研究人员参考和使用。
2023年7月,Facebook母公司Meta推出了LLaMA2,在人工智能 (AI) 行业掀起波澜,LLaMA2是一种开源大语言模型 (LLM),旨在挑战大型科技竞争对手的限制性做法。Meta免费发布 LLaMA2背后的代码和数据,使世界各地的研究人员能够利用和改进该技术。 Meta的首席执行官马克·扎克伯格一直直言不讳地强调开源软件对于刺激创新的重要性。
Meta 训练并发布了三种模型大小的 Llama 2:70、130 和 700 亿个参数。模型架构与 Llama 1 模型基本保持不变,但用于训练基础模型的数据增加了 40%。随附的预印本还提到了一个具有 34B 参数的模型,该模型可能在未来满足安全目标后发布。
Llama 2 包括基础模型和针对对话进行微调的模型,称为 Llama 2 - 聊天。与 Llama 1 进一步不同的是,所有模型都附带权重,并且对于许多商业用例都是免费的。然而,由于一些剩余的限制,Llama开源的描述受到了开源倡议组织(以维护开源定义而闻名)的争议。
Llama2 是 Llama 系列的下一代版本,标志着对初代模型的重要升级。以下是一些关键特性:
Llama3 是 Llama 系列的最新迭代,展现了显著的技术进步和战略意义:
综上所述,Llama、Llama2 和 Llama3 代表了 Meta AI 在大型语言模型开发上的连续创新与进步。从Llama到Llama2,再到Llama3,这一系列模型不仅在模型规模、训练数据量和训练效率上不断突破,而且在架构设计、许可策略以及实际应用场景中均展现出显著的迭代与升级。Llama3作为最新版本,以其逼近 GPT-4 的性能、大规模数据驱动的学习以及高效训练流程,巩固了 Meta 在开源大模型领域的领先地位,并推动了人工智能在社交、商业和其他领域的广泛应用。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。