赞
踩
引用:https://arxiv.org/pdf/2307.09288.pdf
雨果·图弗龙†路易斯·马丁†凯文·斯通†
Peter Albert Amjad Almahairi Yasmine 女性 Nikolay Bashlykov Soumya Batra
Prajjwal Bhargava Shruti Bhosale 和 Bikel Lukas Blecher Christian Canton Ferrer Moya Chen
吉列姆·库库鲁尔 大卫·埃西奥布裘德·费尔南德斯 傅杰里米 傅酒布赖恩·富勒
点击下载保存 Anthony Hartshorn Saghar Hosseini 侯赛尼 mp3 youtube com
哈坎·伊南·马辛·卡达斯·维克多·科尔克兹·马迪安·卡布萨·伊莎贝尔·克劳曼·阿尔乔姆·科热涅夫
普尼特·辛格·库拉 玛丽·安·拉肖蒂博特·拉夫里尔·詹雅·李 戴安娜·利斯科维奇
瀛海陆宇宁毛泽东精选集泽维尔·马丁内特·托多尔·米哈洛夫·普什卡·米什拉
伊戈尔·莫利博格并不害怕安德鲁·波尔顿杰里米·雷森斯坦·拉什运行福利沙拉
艾伦·谢尔滕阮·席尔瓦 埃里克·迈克尔·史密斯 兰詹·萨勃拉曼尼亚 晓晴 艾伦·陈平·邓
Ross Taylor Adina Williams Jian Xiang Kuan Puxin Xu Zheng Yan Iliyan Zarov Yuchen Zhang
Angela Fan Melanie Kambadur Sharan Narang Aurelien Rodriguez Robert Stojnic
Sergey Edunov Thomas Scialom∗
GenAI, Meta
在这项工作中,我们开发并发布了 Llama 2,这是一组经过预训练和微调的大型语言模型 (LLM),其参数规模从 70 亿到 700 亿不等。我们经过微调的LLMs(称为 Llama 2-Chat)针对对话用例进行了优化。我们的模型在我们测试的大多数基准上都优于开源聊天模型,并且根据我们对有用性和安全性的人工评估,可能是闭源模型的合适替代品。我们详细描述了 Llama 2-Chat 的微调和安全改进方法,以使社区能够在我们的工作基础上继续发展,并为LLMs的负责任发展做出贡献。
1 简介 3 2 预训练 5 2.1 预训练数据 5 2.2 训练详情 5 2.3 Llama 2预训练模型评估 7 3 微调 8 3.1 有监督微调(SFT) 9 3.2 人类反馈强化学习(RLHF) 9 3.3 多轮一致性的系统消息 16 3.4 RLHF 结果 17 4 安全 20 4.1 预训练的安全性 20 4.2 安全微调 23 4.3 红队 28 29的安全性评价 5 讨论 32 5.1 经验教训和观察结果 32 5.2 局限性和道德考虑 34 5.3 负责任的发布策略 35 6 相关工作 35 7 结论 36 附录 46 A.1 贡献 46 A.2 预训练的其他细节 47 A.3 微调的其他细节 51 A.4 其他安全细节 58 A.5 数据注释 72 A.6 数据集污染 75 A.7 模型卡 77
图 1:与其他开源和闭源模型相比,Llama 2-Chat 的有用性人类评估结果。人类评分者在约 4k 提示(包括单轮提示和多轮提示)上比较模型生成。此评估的 95% 置信区间介于
1%和2%。更多详细信息请参见第 3.4.2 节。在审查这些结果时,值得注意的是,由于提示集的限制、审查指南的主观性、个体评估者的主观性以及比较代际的固有困难,人类评估可能会很嘈杂。
根据 GPT4,商业许可的基线与 Llama 2-Chat 之间的有用性和安全性胜率百分比。为了补充人类评估,我们使用了一个更强大的模型,不受我们自己的指导。绿色区域表示根据 GPT-4 我们的模型更好。为了消除平局,我们使用win/ ( win + loss ) 。随机交换模型响应呈现给 GPT-4 的顺序以减轻偏差。
大型语言模型 (LLM) 作为功能强大的人工智能助手展现出了巨大的前景,它们擅长完成需要跨领域专业知识的复杂推理任务,包括编程和创意写作等专业领域。它们通过直观的聊天界面与人类互动,这导致了公众的快速广泛采用。
考虑到训练方法看似简单的本质,LLMs的能力是非凡的。自回归 Transformer 在大量自监督数据上进行预训练,然后通过人类反馈强化学习 (RLHF) 等技术与人类偏好保持一致。尽管训练方法很简单,但高计算要求限制了LLMs的发展仅限于少数人。已经有预训练的 LLM 的公开版本(例如 BLOOM ( Scao et al., 2022)、LLaMa-1 ( Touvron et al., 2023) 和 Falcon (Penedo et al., 2023))与封闭模型的性能相匹配。预训练的竞争对手,如 GPT-3(Brown 等人,2020)和 Chinchilla(Hoffmann 等人,2022),但这些模型都不是封闭“产品”LLM 的合适替代品,如 ChatGPT、BARD 和 Claude。这些封闭产品LLMs经过严格调整,以符合人类的偏好,这极大地增强了它们的可用性和安全性。此步骤可能需要大量的计算和人工注释成本,并且通常不透明或不易重现,限制了社区内推进人工智能对齐研究的进展。
在这项工作中,我们开发并发布了 Llama 2,这是一系列经过预训练和微调的 Llama、 Llama 2和
Llama 2-Chat ,参数规模高达 70B。在我们测试的一系列有用性和安全性基准中,Llama 2-Chat 模型的表现通常优于现有的开源模型。它们似乎也与一些闭源模型相当,至少在我们进行的人工评估上是如此(见图 1 和图 3)。我们已采取措施来提高这些模型的安全性,使用特定于安全的数据注释和调整,以及进行红队和采用迭代评估。此外,本文还全面描述了我们提高LLMs安全性的微调方法和方法。我们希望这种开放性将使社区能够重现经过微调的LLMs,并继续提高这些模型的安全性,为LLMs更负责任的发展铺平道路。我们还分享了在Llama 2和Llama 2-Chat开发过程中所做的新观察,例如工具使用和知识时间组织的出现。
图 3:Llama 2-Chat 与其他开源和闭源模型相比的安全人类评估结果。人类评估者通过约 2,000 个对抗性提示(包括单轮提示和多轮提示)来判断模型代是否存在安全违规行为。更多详细信息请参见第 4.4 节。重要的是要注意这些安全性结果,因为由于提示集的限制、审查指南的主观性以及个体评估者的主观性,LLMs评估存在固有偏差。此外,这些安全评估是使用可能偏向 Llama 2-Chat 模型的内容标准进行的。
我们向公众发布以下模型用于研究和商业用途 <1>:
1. https://ai.meta.com/resources/models-and-libraries/llama/
2. 由于没有足够的红队时间,我们推迟了 34B 模型的发布。
3. https://ai.meta.com/llama
4. https://github.com/facebookresearch/llama
图 4:Llama 2-Chat 的训练:此过程首先使用公开的在线资源对 Llama 2进行预训练。接下来,我们通过应用监督微调创建了 Llama 2-Chat 的初始版本。随后,使用强化学习迭代完善模型
使用人类反馈( RLHF)方法,特别是通过拒绝采样和近端策略优化(PPO)。在整个 RLHF 阶段,迭代奖励建模数据的积累与模型增强并行对于确保奖励模型保持在分布范围内至关重要。
为了创建新的 Llama 2 模型系列,我们从Touvron等人中描述的预训练方法开始。 (2023),使用优化的自回归变压器,但进行了一些更改以提高性能。具体来说,我们执行了更稳健的数据清理,更新了数据混合,对总令牌数增加了 40% 进行了训练,将上下文长度加倍,并使用分组查询注意力 (GQA) 来提高大型模型的推理可扩展性。表 1 比较了新 Llama 2 型号与 Llama 1 型号的属性。
我们的训练语料库包含来自公开来源的新数据组合,其中不包括来自 Meta 产品或服务的数据。我们努力从某些已知包含大量个人信息的网站中删除数据。我们对 2 万亿个代币的数据进行了训练,因为这提供了良好的性能与成本权衡,对最真实的来源进行上采样,以增加知识并抑制幻觉。
我们进行了各种预训练数据调查,以便用户可以更好地了解潜力
我们模型的能力和局限性;结果可以在第 4.1 节中找到。
我们采用 Llama 1 中的大部分预训练设置和模型架构。我们使用标准 Transformer 架构(Vaswani 等人,2017),使用RMSNorm应用预归一化(Zhang 和Sennrich ,2019),使用SwiGLU激活函数( Shazeer ,2020)和旋转位置嵌入( RoPE ,Su 等人,2022)。与 Llama 1 的主要架构差异包括增加的上下文长度和分组查询注意力 (GQA)。我们在附录 A.2.1 节中通过消融实验详细说明了这些差异,以证明它们的重要性。
超参数 我们使用AdamW优化器(Loshchilov 和 Hutter,2017)进行训练,其中β 1 =0 . 9 ,β 2 = 0 。 95 , eps = 10 -5 。我们使用余弦学习率计划,预热 2000 步,并将最终学习率衰减到峰值学习率的 10%。我们使用权重衰减0 。 1和1的梯度裁剪。 0 .图 5 (a) 显示了使用这些超参数的 Llama 2 的训练损失。
表 1:Llama 2 系列型号。令牌计数仅指预训练数据。所有模型均使用 4M 令牌的全局批量大小进行训练。更大的模型(34B 和 70B)使用分组查询注意力(GQA)来提高推理可扩展性。
图 5:Llama 2 模型的训练损失。我们比较了 Llama 2 系列模型的训练损失。我们观察到,在 2T 代币上进行预训练后,模型仍然没有显示出任何饱和的迹象。
分词器。我们使用与 Llama 1 相同的分词器;它采用字节对编码 (BPE) 算法( Sennrich等人,2016),并使用SentencePiece的实现(Kudo 和 Richardson,2018)。与骆驼 1 一样,
我们将所有数字拆分为单独的数字,并使用字节来分解未知的 UTF-8 字符。总词汇量为 32k 个标记。
训练硬件我们在 Meta 的研究超级集群 (RSC)(Lee 和 Sengupta,2022)以及内部生产集群上对模型进行了预训练。两个集群均使用 NVIDIA A100。这两个集群之间有两个关键区别,第一个是可用的互连类型:RSC 使用 NVIDIA Quantum InfiniBand,而我们的生产集群配备了基于商用以太网交换机的 RoCE(融合以太网上的 RDMA)解决方案。这两种解决方案都互连 200 Gbps 端点。第二个区别是每个 GPU 的功耗上限 — RSC 使用 400W,而我们的生产集群使用 350W。通过这种两个集群的设置,我们能够比较这些不同类型的互连对于大规模训练的适用性。 RoCE(这是一种更实惠的商业互连网络)
表 2:预训练期间的 CO 2排放量。时间:训练每个模型所需的总 GPU 时间。功耗:根据电源使用效率调整所用 GPU 的每个 GPU 设备的峰值功率容量。 100% 的排放量由 Meta 的可持续发展计划直接抵消,并且因为我们公开释放
这些模型,预训练的成本不需要别人承担。几乎可以将昂贵的Infiniband扩展到 2000 个 GPU,这使得预训练更加民主化。
预训练的碳足迹。根据之前的研究(Bender 等人,2021a;Patterson 等人,2021;Wu 等人,2022;Dodge 等人,2022)并使用 GPU 设备的功耗估计和碳效率,我们的目标是计算碳Llama 2 模型预训练产生的排放。 GPU 的实际功耗取决于其利用率,并且可能与我们用来估计 GPU 功耗的热设计功耗 (TDP) 有所不同。值得注意的是,我们的计算并未考虑进一步的电力需求,例如来自互连或非 GPU 服务器功耗的电力需求,也没有考虑来自数据中心冷却系统的电力需求。此外,正如 Gupta 等人所建议的,与 GPU 等人工智能硬件生产相关的碳排放可能会增加总体碳足迹。 (2022b,a)。表 2 总结了预训练 Llama 2 系列模型的碳排放量。在 A100-80GB 类型的硬件(TDP 为 400W 或 350W)上累计执行了 330 万 GPU 小时的计算。我们估计训练的总排放量为539 tCO 2 eq ,其中 100% 直接由 Meta 的可持续发展计划抵消。 我们的开放发布策略也意味着这些预训练成本将不需要由其他公司承担,从而节省更多的全球资源。
MosaicML Pretrained的结果Transformer (MPT) ††模型和基于标准学术基准的 Falcon ( Almazrouei et al., 2023) 模型。对于所有评估,我们使用我们的内部评估库。我们在内部重现了 MPT 和 Falcon 模型的结果。对于这些模型,我们总是在我们的评估框架和任何公开报告的结果之间选择最佳分数。
在表 3 中,我们总结了一系列流行基准测试的整体性能。请注意,第 4.1 节中共享了安全基准。这些基准分为以下几类。所有单独基准测试的结果可在 A.2.2 节中找到。
• 代码。我们报告了我们的模型在HumanEval (Chen 等人,2021)和 MBPP(Austin 等人,2021)上的平均 pass@1 分数。
• 常识推理。我们报告了 PIQA(Bisk 等人,2020)、SIQA(Sap 等人,2019)的平均值,
HellaSwag (Zellers 等人,2019a)、 WinoGrande (Sakaguchi 等人,2021)、ARC 简单和挑战
(Clark 等人,2018)、 OpenBookQA (Mihaylov 等人,2018)和CommonsenseQA (Talmor 等人,2018)。我们报告CommonSenseQA的 7 次测试结果和所有其他基准测试的 0 次测试结果。
• 世界知识。我们评估了NaturalQuestions (Kwiatkowski 等人,2019)和TriviaQA (Joshi 等人,2017)上的 5 次测试的性能,并报告平均值。
• 阅读理解。对于阅读理解,我们报告了SQuAD ( Rajpurkar et al., 2018)、 QuAC (Choi et al., 2018)和BoolQ (Clark et al., 2019)上的 0-shot 平均值。
• 数学。我们在top 1报告了 GSM8K(8 shot))(Cobbe 等人,2021)和 MATH(4 shot))(Hendrycks 等人,2021)基准的平均值。
表 3:与开源基础模型相比,分组学术基准的总体表现。
• 流行的聚合基准。我们报告了 MMLU(5 次射击)(Hendrycks 等人,2020)、Big Bench Hard (BBH)(3 次射击)( Suzgun等人,2022)和 AGI Eval(3-5 次射击)(Zhong)的总体结果等人,2023)。对于 AGI Eval,我们仅评估英语任务并报告平均值。
如表 3 所示,Llama 2 模型优于 Llama 1 模型。特别是,与 Llama 1 65B 相比, Llama 2 70B 在 MMLU 和 BBH 上的结果分别提高了约5 点和约8 点。除了代码基准测试之外,Llama 2 7B 和 30B 模型在所有类别上都优于相应大小的 MPT 模型。对于 Falcon 型号,Llama 2 7B 和 34B 在所有类别的基准测试中均优于 Falcon 7B 和 40B 型号。此外,Llama 2 70B 模型的性能优于所有开源模型。
除了开源模型之外,我们还将 Llama 2 70B 结果与闭源模型进行了比较。如表 4 所示,Llama 2 70B 在 MMLU 和 GSM8K 上接近 GPT-3.5(OpenAI,2023),但在编码基准上存在显着差距。在几乎所有基准测试中,Llama 2 70B 的结果均与PaLM (540B)( Chowdhery等人,2022)持平或更好。 Llama 2 70B 与 GPT-4 和 PaLM-2-L 的性能仍有较大差距。
我们还分析了潜在的数据污染并在 A.6 节中分享了详细信息。
表 4:与闭源模型在学术基准上的比较。 GPT-3.5 和 GPT-4 的结果来自 OpenAI (2023)。 PaLM模型的结果来自Chowdhery等人。 (2022)。 PaLM-2-L 的结果来自 Anil 等人。 (2023)。
∗∗https://sustainability.fb.com/2021-sustainability-report/
††https://www.mosaicml.com/blog/mpt-7b
Llama 2-Chat 是对齐技术(包括指令调整和 RLHF)数月研究和迭代应用的结果,需要大量的计算和注释资源。在本节中,我们报告使用监督微调(第 3.1 节)以及初始和迭代奖励模型(第 3.2.2 节)和 RLHF(第 3.2.3 节)的实验和结果。我们还分享了一种新技术,幽灵注意力( GAtt ),我们发现它有助于控制多个回合的对话流(第 3.3 节)。有关微调模型的安全评估,请参阅第 4.2 节。
表 5:SFT 注释— SFT 的有用性(顶部)和安全性(底部)注释示例,其中注释者编写了提示及其答案。
入门。为了引导,我们使用公开可用的指令调优数据启动了 SFT 阶段(Chung 等人,2022),正如Touvron等人之前使用的那样。 (2023)。
质量就是您所需要的。第三方 SFT 数据可以从许多不同的来源获得,但我们发现其中许多数据的多样性和质量不足——特别是在使LLMs与对话式指令保持一致方面。因此,我们首先集中于收集数千个高质量 SFT 数据的示例,如表 5 所示。通过从第三方数据集中留出数百万个示例,并使用来自我们自己的基于供应商的更少但质量更高的示例注释努力后,我们的结果显着改善。这些发现与 Zhou 等人的精神相似。 (2023),该研究还发现一组有限的干净指令调整数据足以达到高水平的质量。我们发现数万个数量级的 SFT 注释足以获得高质量的结果。在收集了总共 27,540 个注释后,我们停止了对 SFT 的注释。请注意,我们不包含任何元用户数据。
我们还观察到,不同的注释平台和供应商可能会导致下游模型性能明显不同,这凸显了即使使用供应商来获取注释时数据检查的重要性。为了验证我们的数据质量,我们仔细检查了一组 180 个示例,将人类提供的注释与模型通过手动检查生成的样本进行比较。出奇,
我们发现,从生成的 SFT 模型中采样的输出通常与人类注释者手写的 SFT 数据具有竞争力,这表明我们可以重新确定优先级,并将更多的注释工作投入到基于偏好的 RLHF 注释上。
微调细节。对于监督微调,我们使用余弦学习率计划,初始学习率为2 × 10 -5 ,权重衰减为 0.1,批量大小为 64,序列长度为 4096 个标记。
对于微调过程,每个样本都包含提示和答案。为了确保正确填充模型序列长度,我们连接训练集中的所有提示和答案。使用特殊标记来分隔提示和答案部分。我们利用自回归目标,将用户提示中的标记损失归零,因此,我们仅对答案标记进行反向传播。最后,我们对模型进行了 2 个 epoch 的微调。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。