笔触狂放9

这个屌丝很懒，什么也没留下！

热门标签

Meta发布LLaMA 2：分析及解读_meta-llama/llama-2-7b

作者：笔触狂放9 | 2024-02-14 20:06:04

踩

meta-llama/llama-2-7b

Meta发布了LLaMA的新版本。该版本将被称为LLaMA 2，并且可以免费用于研究和商业用途。这是Meta和Microsoft联合发布的成果。

我认为微软希望垄断所有第三方LLM，并将它们作为SaaS（软件即服务）保留在自己的平台上作为商业产品。现在，OpenAI和LLaMA都将成为微软产品系列的一部分。

新内容

将包含预训练模型和会话微调版本的模型权重和起始代码。

这意味着不再需要去4chan获取权重并构建自己的模型。这个模型的架构和模型权重都可以免费用于商业目的。

该模型有3个版本 — LLaMA-2–7B LLaMA-2–13B LLaMA-2–70B 所有这些模型都将作为基础模型和相应的CHAT模型发布。因此，总共将会在六个月内发布。

最小的7B和13B版本应该适合现代消费级GPU，而较大的70B版本应该适合A100 GPU。

默认情况下，上下文长度为4096，但可以增加。

该模型训练了2万亿个标记。

7B和13B的架构与它们的旧版本类似，但70B是一个新发布的版本。

该模型经过针对Chat使用场景的微调，并使用了100,000个样本和超过一百万人类偏好进行了监督式微调。

性能:

这个模型应该与大多数开源模型不相上下。特别是与Falcon-40B（目前的冠军）相比，该模型在所有任务上表现明显更好。

标准测试

人工评估结果

人工评估员在约4,000个提示上对模型的不同版本进行了比较，其中包括单一回合和多回合的提示。该评估的95%置信区间在1%到2%之间。在审查这些结果时，需要注意人工评估可能存在噪音，这是由于提示集的限制、评估准则的主观性、个体评估员的主观性以及比较不同版本的固有难度所导致的。

GPT-4基于的安全性评估

为了补充人工评估，我们使用GPT-4对LLaMA-2进行了比较。绿色区域表示根据GPT-4的评估，我们的模型表现更优。为了排除平局，我们使用胜利次数/总数。为了减轻偏见，模型响应的展示顺序被随机交换。

安全性评价

Llama 2-Chat 与其他开源和闭源模型相比的安全评估结果。

评估员对大约2,000个敌对性提示的模型生成结果进行了安全性违规的判断，其中包括单一回合和多回合的提示。需要注意，这些安全性结果可能存在来自LLM评估固有偏见的限制，这是由于提示集的限制、评估准则的主观性和个体评估员的主观性所导致的。此外，这些安全性评估是使用可能偏向Llama 2-Chat模型的内容标准进行的。

训练方案

Llama 2-Chat 的训练

预训练：该过程从使用公开可用的在线资源对Llama 2进行预训练开始。监督式微调：通过应用监督式微调创建Llama 2-Chat的初始版本。强化学习：随后，使用强化学习与人类反馈（RLHF）方法对模型进行迭代优化，具体包括拒绝抽样和近端策略优化（PPO）。在整个RLHF阶段，累积迭代奖励建模数据与模型增强并行进行是至关重要的，以确保奖励模型保持在分布范围内。

训练时间

训练一个规模是原来的10倍，模型成本是线性的（GPU小时和碳足迹均为1,720,320/184,320）。然而，在各个任务领域中的改进幅度从14%（常识推理）到130%（编码）不等。训练一个规模是原来的10倍大的模型主要集中在编码任务、数学问题和AGI评估方面获得了显著提升。而在常识推理、世界知识和阅读理解方面的改进最小。在模型尺寸扩大10倍的情况下，MMLU（平均最小路径长度）和BBH（平均宽度平衡高度）得分有了适度的提升。

这个模型发布了所有关于训练、微调、安全调优、碳足迹等方面的细节。这个模型很可能在新通过的欧盟合规要求上得分更高。

输出模型

采用提示（包括上下文）和模型生成输出的配对。这对配对根据响应的质量得分，包括对响应生成的有用性和安全性的评分。这与OpenAI对GPT-3、3.5和4所做的练习相同。虽然没有明确说明，但我怀疑用于评定LLaMA-2生成的响应的方法也是相同的。这是一种强化学习的类型，但是训练的决策空间更加集中和受限。这也被称为RLHF（Reinforcement Learning with Human Feedback），旨在更好地训练模型与人类偏好相一致。

输出模型的人工偏好数据统计。

输出模型使用了开源和内部收集的人工偏好数据，上面已列出。二元人工偏好比较包含2个响应（选择和拒绝），它们共享相同的提示，包括先前对话的上下文。否则，所有示例都由一个提示（包括先前对话，如果有的话）和一个响应组成，这是输出模型的输入。

用于输出模型的两个算法：

近端策略优化（Proximal Policy Optimization，PPO）（Schulman等人，2017），是RLHF文献中的标准算法。
Rejection Sampling fine-tuning：这涉及模型生成的K个样本输出，选择最佳候选者，然后使用选定的输出进行梯度更新。获得最高奖励分数的样本被视为黄金标准。

这两个算法在以下方面不同：

广度 — 一个样本输出与多个样本输出和抽样
深度 — 在拒绝抽样微调中，只使用选定的样本来更新模型的梯度。

增量强化学习与人工反馈（Incremental RLHF）的收益

强化学习与人工反馈（RLHF）通过5个步骤（分别标记为RLHF-V1、V2，...，RLHF-V5）进行，逐步使用更多的可用样本，结果逐渐改善，显示了更多微调数据的重要性。

人工评估

Llama 2-Chat模型与开源和闭源模型在约4,000个有益提示上进行了人工评估，每个提示有三个评估者。

其中最重要的部分是与ChatGPT-0301（基于GPT-3和3 turbo的ChatGPT的三月发布版本）的比较，70B参数模型以微弱优势击败了它。

安全性

虽然安全性可能不是一个令人激动的话题，但我们还是要谈谈它。该模型已经采取了一些措施来解决模型安全性问题。Meta在训练这些模型时没有使用用户数据，该模型还试图解决代词、身份（宗教、性别、国籍、种族和民族）、以及人口统计偏见等问题。

该模型已经进行了真实性、有害性和偏见的基准测试，其得分优于以往所有开源模型的版本。较大的模型表现比较小的模型更好。安全性微调使用了监督式安全微调、强化学习与人类反馈和上下文蒸馏。上下文蒸馏是通过在提示前加入安全性预先提示“您是一个安全和负责任的助理”来生成更安全的模型响应。

安全性强化学习与人类反馈（RLHF）的影响通过奖励模型分数分布来衡量。左图：Meta安全测试集上生成结果的安全奖励模型分数。样本在左上角的聚集表明模型的安全性有所改善。右图：Meta有益性测试集上生成结果的有益性奖励模型分数。

随着数据量的增加，安全性普遍得到改善。

安全性RLHF的影响通过奖励模型分数分布来衡量。左图：Meta安全性测试集上生成结果的安全奖励模型分数。样本在左上角的聚集表明模型的安全性有所改善。右图：Meta有益性测试集上生成结果的有益性奖励模型分数。

总体而言，随着数据量的增加，安全性有所提升。

上图：上下文蒸馏分析。左图：基础模型中安全RM分数的分布，添加通用预提示后的分数，以及基于风险类别的、带有定制答案模板的预提示的分数。尽管通用预提示可以提高安全RM分数，但带有定制答案模板的预提示效果更好。右图：上下文蒸馏显著提高了初始得分较低样本的RM分数，但对初始得分较高的样本可能产生不利影响。因此，我们仅在能够提高RM分数的有针对性样本上应用上下文蒸馏。

需要注意的是，上下文蒸馏可能降低奖励模型的分数。因此，我们采用了选择性的上下文蒸馏（只在RM分数较低且能提高有效RM分数时应用）。

左图：不论模型规模，Llama 2-Chat的违规百分比都较低。右图：不论模型规模，Llama 2-Chat的安全性和有益性平均评分都较高。

单匝和多匝违规百分比

每个风险类别的违规百分比
必须注意的是，这些分类是基于审稿人以及审稿人的差异及其主观解释。

总结

总结思考

LLaMA是比早期版本更为先进的一步。通过为商业用途提供权重，Meta真正支持了创新者和开发者社区。此外，这是首次发布提供了有关模型、代码、架构、策略、规划、功耗和其他训练成本的所有细节。我希望能看到最后缺失的推理引擎和其碳足迹的信息。增加这一点可以使这篇论文成为一个几乎完美的模型发布示例，希望OpenAI、Microsoft可以向Meta学习，并实现透明化。

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/笔触狂放9/article/detail/81229