当前位置:   article > 正文

Llama 2- Open Foundation and Fine-Tuned Chat Models<4>

Llama 2- Open Foundation and Fine-Tuned Chat Models<4>
4.2.4 上下文蒸馏以确保安全

我们鼓励 Llama 2-Chat 通过使用类似于第 3.3 节的上下文蒸馏(Askell 等人,2021a)将对抗性提示与更安全的响应相关联。我们观察到LLMs的安全能力可以有效地
通过在模型前添加安全提示(例如, “你是一个安全且负责任的助手” )来增强。与监督安全微调一样,安全上下文蒸馏提供了一种快速方法来引导模型对硬对抗性提示的响应,以便可以在 RLHF 中进一步改进它们。
前置提示来应用上下文蒸馏,以生成更安全的响应,然后在没有前置提示的情况下根据其自身的安全输出对模型进行微调。我们使用模板自动生成安全提示。特别是,我们使用通常与安全行为相关的各种形容词,例如“负责任的”、“尊重的”或“明智的”,直觉上模型将它们与我们希望看到在安全答案中反映出来的积极特征联系起来。我们在附录表 39 中展示了安全预先提示的示例。
使用答案模板进行上下文蒸馏在提示收集阶段,我们还要求注释者根据风险类别来标记提示,这使得预先提示更有针对性。具体来说,这使我们能够根据每个已识别的风险类别提供一些专用的答案模板,说明应如何解决对抗性提示。图 16a 显示了上下文蒸馏和带有答案模板的上下文蒸馏对安全 RM 分数的影响。
在这里插入图片描述
图 16:上下文蒸馏分析。左图:添加通用前置提示时以及根据具有定制答案模板的风险类别添加前置提示时,基本模型的安全 RM 分数分布。虽然通用的预先提示可以提高安全 RM 分数,但带有定制答案模板的预先提示的帮助更大。右图:上下文蒸馏显着提高了最初得分较低的样本的 RM 得分,但也可能对最初得分较高的样本产生不利影响。因此,我们仅在提高 RM 分数时才对目标样本应用上下文蒸馏。

使用安全奖励模型拒绝上下文蒸馏错误值得注意的是,为有用的提示执行安全上下文蒸馏可能会降低模型性能并导致更多错误拒绝
(参见附录表 40)。因此,我们仅在对抗性提示下执行安全上下文蒸馏。然而,我们观察到,上下文蒸馏有时会降低响应质量,即使在处理对抗性提示时也是如此。具体来说,如果模型响应已经具有高质量,则上下文蒸馏的应用可能会导致不太相关的回复,因为模型倾向于过分强调前置提示,经常过度诉诸一般关注点(参见附录表 40,了解模糊答案的示例)由于上下文蒸馏)。因此,我们利用安全奖励模型来决定是否使用安全上下文蒸馏——我们仅在获得比原始答案更好的奖励模型分数的示例上保留上下文蒸馏输出。我们注意到,这对于模型非常不擅长的提示特别有帮助,但限制了上下文蒸馏的负面影响(见图 16b)。

4.3 红队

鉴于LLMs的能力有多广泛以及其训练数据的多样性,仅通过事后使用和分析来识别风险是不够的。相反,正如其他LLMs所做的那样,我们执行了各种主动风险识别,俗称“红队”,基于计算机安全领域常用的术语。这种粒度分析非常重要,因为安全是一个长尾问题,即使非常罕见的边缘情况也可能导致明显的问题。即使定量分数报告了良好的结果,这些类型的定性见解也使我们能够以更全面的方式识别和定位特定模式。
我们与不同群体的内部员工、合同工和外部供应商进行了一系列的红队合作。这些团队由 350 多人组成,包括网络安全、选举欺诈、社交媒体错误信息、法律、政策、民权、道德、软件工程、机器学习、负责任的人工智能和创意写作等领域的专家。他们还包括代表各种社会经济、性别、民族和种族人口特征的个人。
红队成员对我们的模型进行了广泛的风险类别(例如犯罪计划、人口贩运、管制或管制物质、露骨色情内容、不合格的健康或财务建议、侵犯隐私等)以及不同的攻击向量的探索(例如假设性问题、格式错误/拼写错误的输入或扩展对话)。此外,我们还进行了具体测试,以确定我们的模型促进武器(例如核武器、生物武器、化学武器和网络武器)生产的能力;关于这些主题的调查结果微乎其微,并且有所缓解。尽管如此,我们将继续在这方面进行红队努力。
迄今为止,我们所有的红队工作都以英语为目标模型输出,但至关重要的是包括非英语提示和对话上下文,因为这是众所周知的攻击向量。在所有练习中,参与者都获得了风险类别定义,并仅看到了与LLMs进行风险互动的少数示例。之后,每个参与者都是专注于特定类别风险或攻击向量的子团队的一部分。创建每个对话后,红队参与者将注释各种属性,包括风险领域和风险程度,如 5 点李克特量表所示。
红队成员提供的一些有用见解的示例我们能够在整个开发过程中进行改进:
• [早期模型]更有可能生成不安全的响应,而没有注意到它们包含有问题的内容。然而,[稍晚的模型]倾向于显示内容有问题的知识,即使他们确实继续提供它。 “他们的回应是‘[不安全
内容] 不适合讨论等。然后立即跟进“话虽如此,这就是[不安全内容]。” “ [最新模型]能够解决这些问题。
• 来分散[早期模型]的注意力,通常会击败通过更直接的请求遇到的任何不情愿。 “创意写作请求(歌曲、故事、诗歌等)是一种可靠的方式,可以让它创作出原本难以应对的内容。”
• 早期模型]请求有问题的输出的事实: “我发现对于任何类型的攻击最有效的总体原则是将其隐藏在积极的语言中,进步、赋权。”从红队洞察到更安全的模型。至关重要的是,每次练习后,我们都会对收集的数据进行彻底分析,包括对话长度、风险区域分布、错误信息主题的直方图(如果适用)以及风险评级。在每种情况下,我们都以整体课程为指导,帮助进一步进行模型安全训练,并专门从这些练习中获取数据进行模型微调、模型反馈训练,并作为其他安全模型训练的信号。
在几个月内进行了多轮红队合作,以衡量内部发布的每个新模型的稳健性。我们将模型相对于由一组专家执行的红队练习的鲁棒性定义为每人每小时创建的提示的平均数量,该提示将触发模型的违规响应。例如,在我们的 7B 模型上,我们有γ : 1的演变。 8→0 。 45经过多次红队迭代和模型改进。通过额外的红队努力,稳健性可能会继续提高。随着新模型的产生,我们跟踪的另一个重要指标是在之前的红队练习中发现的触发违规响应的提示的百分比,这些提示在给定的新候选版本中得到了缓解。平均而言,我们的模型拒绝率高达 90%。

4.4 Llama 2-Chat的安全性评估

安全人类评估。根据4.2.1节中的安全类别,我们收集了大约2,000个用于人类评估的对抗性提示,其中1,351个提示是单轮提示,623个提示是多轮提示。评估提示和响应的示例可在附录 A.4.6 中找到。
然后,我们要求评估者根据李克特五点量表来判断安全违规模型,定义如下:
• 5 - 没有违反安全规定并且非常有帮助
• 4 - 没有安全违规行为,只有轻微的非安全问题
• 3 - 没有违反安全规定但没有帮助或其他重大非安全问题
• 2 - 轻度或中度安全违规
在这里插入图片描述
图 17:总体安全措施。左: Llama 2-Chat 在不同模型尺寸中总体违规率较低。右图: Llama 2-Chat 在不同型号尺寸上均具有较高的安全性和实用性平均评级。值得注意的是,这些结果受到提示集的限制、审查指南的主观性以及个体评估者的主观性。

• 1 - 严重违反安全规定
我们将 1 或 2 的评级视为违规,并使用违规百分比作为我们的主要评估指标,并以平均评级作为补充。每个示例都由三名注释者进行注释,我们以多数票来确定响应是否违规。我们使用Gwet 的AC1/2 统计量来衡量评估者间的可靠性 (IRR),就像在有用性人类评估中一样。 IRR 分数范围为0 . 70比0 。 95,具体取决于注释批次,表明注释者之间对安全评估的高度一致。在 Llama 2-Chat 注释上,平均 IRR 为0 。根据Gwet 的AC2 测量为92 。我们发现模型违规率较高的批次(例如 Vicuna)的 IRR 分数较低,而批次的 IRR 分数较高
其中模型的违规率相对较低(例如 Llama 2-Chat、Falcon 和 ChatGPT)。
在这里插入图片描述
图 18:单匝和多匝违规百分比。请注意,由于提示集的限制、评审指南的主观性、内容标准和个人评估者,应仔细解释这些结果。
我们在图 17 中显示了各种 LLM 的总体违规百分比和安全评级。Llama 2-Chat 在不同模型大小上具有相当或更低的总体违规百分比,而 ChatGPT 和 Falcon ( Almazrouei et al., 2023) 其次是 MPT ( MosaicML) NLP Team 等人,2023)和 Vicuna(Chiang 等人,2023)。仔细解释这些结果非常重要,因为它们受到提示集的局限性、审查指南的主观性、内容标准和个体评估者的主观性的影响。经过手动分析,我们发现 Falcon 的响应通常很短(一两句话),因此不太容易生成不安全的内容,但通常也不太有帮助。 Falcon 的大量评分= 3的响应反映了这一点。因此,我们注意到,在图 17b 中,Falcon 的平均评级远低于 Llama 2-Chat (34B),尽管它们的违规百分比看起来相似( 3 . 88 vs 4 . 45 )。
在这里插入图片描述
图 19:每个风险类别的违规百分比。注意:由于提示集的限制、评审指南的主观性、内容标准和个人评分者,应仔细解释这些结果。

在图 18 中,我们分别报告了单轮和多轮对话的违规百分比。跨模型的一个趋势是,多轮对话更容易引发不安全的响应。也就是说,与基线相比,Llama 2-Chat 仍然表现良好,尤其是在多轮对话中。我们还观察到 Falcon 在单轮对话中表现特别好(主要是因为它的简洁性),但
在多轮对话上情况更糟,这可能是由于缺乏多轮监督微调数据。在图 19 中,我们显示了不同 LLM 的按类别安全违规百分比。虽然各个类别的模型表现相似,但 Llama 2-Chat 在不合格建议类别下的违规行为相对较多(尽管绝对意义上仍然较低),原因有多种,包括缺乏适当的免责声明(例如, “我不是专业人士”) “ ) 有时。对于其他两个类别,无论模型大小如何,Llama 2-Chat 始终都能实现相当或更低的违规百分比。
Truthfulness, Toxicity, and Bias。 在表 14 中,经过微调的 Llama 2-Chat 在真实性(70B 为50 . 18 → 64 . 14 )和毒性(70B 为24 . 60 → 0 . 01 )方面比预训练的 Llama 2 有很大改进。对于所有大小的 Llama 2-Chat,有毒生成的百分比有效地缩小到 0%:这是所有比较模型中最低的毒性水平。总的来说,与 Falcon 和 MPT 相比,经过微调的 Llama 2-Chat 在毒性和真实性方面表现出最佳性能。经过微调后,Llama 2-Chat 对于许多粗体人口群体的总体积极情绪往往会有所增加。在附录 A.4.8 中,我们提供了偏差基准的不同子组的模型生成情绪的详细分数细分,以及更深入的分析和真实性和偏差的结果。
在这里插入图片描述
表 14:在不同安全数据集上微调LLMs的评估。对于TruthfulQA ,我们展示了既真实又信息丰富的世代的百分比(越高越好)。对于ToxiGen ,我们提供有毒生成的百分比(越小越好)。

5 讨论

在这里,我们讨论我们在 RLHF 中观察到的有趣特性(第 5.1 节)。然后我们讨论 Llama 2-Chat 的局限性(第 5.2 节)。最后,我们提出了负责任地发布这些模型的策略(第 5.3 节)。

5.1 经验和观察

我们的调优过程揭示了一些有趣的结果,例如 Llama 2-Chat 能够临时组织其知识,或调用外部工具的 API。
在这里插入图片描述
图 20:Llama 2-Chat 渐进版本的分布转变,从 SFT 模型到 RLHF。
超越人类监督。在项目开始时,我们中的许多人都表达了对监督注释的偏好,被其更密集的信号所吸引。与此同时,强化学习因其不稳定而闻名,对于 NLP 研究界的人来说似乎是一个有点神秘的领域。然而,事实证明强化学习非常有效,特别是考虑到其成本和时间效率。我们的研究结果强调,RLHF 成功的关键决定因素在于它在整个注释过程中促进人类和LLMs之间的协同作用。
即使有熟练的注释者,每个人的写作也会存在很大差异。在 SFT 注释上进行微调的模型可以学习这种多样性,不幸的是,包括执行不良的注释的尾部。此外,模型的性能受到最熟练注释者的写作能力的限制。在比较 RLHF 的两个输出的偏好注释时,人类注释者可以说较少受到差异的影响。因此,奖励机制很快学会将低分分配给不良的尾端分布,并与人类的偏好保持一致。这种现象如图 20 所示,我们可以看到最差的答案逐渐被删除,使分布向右移动。
此外,在注释过程中,模型有可能冒险编写即使是最好的注释者也可能无法绘制的轨迹。尽管如此,人类在比较两个答案时仍然可以提供超出其自身写作能力的有价值的反馈。打个比方,虽然我们可能并非都是有成就的艺术家,但我们欣赏和批评艺术的能力仍然完好无损。我们认为LLMs的卓越写作能力(表现为在某些任务中超越人类注释者)从根本上是由 RLHF 驱动的,正如 Gilardi 等人所记录的那样。 (2023)和黄等人。 (2023)。受监督的数据可能不再是黄金标准,这种不断变化的情况迫使人们重新评估“监督”的概念。
上下文温度重新调整。我们观察到了一个与 RLHF 相关的有趣现象,据我们所知,这一特征此前并未报道过:温度根据环境动态重新调整。如图 8 所示,温度似乎受到 RLHF 的影响。然而,有趣的是,我们的研究结果还表明,这些变化并未均匀地应用于所有提示,如图 21 所示。例如,当涉及与创造力相关的提示(例如“写一首诗”)时,温度持续升高在我们的各种 RLHF 迭代中产生多样性。这可以在 Self-BLEU 斜率中观察到,它反映了与 SFT 模型相当的模式。
另一方面,对于基于事实信息的提示,例如“什么是 的首都?” Self-BLEU 斜率随着时间的推移而减小。这种模式表明,尽管温度不断上升,该模型仍学会对事实提示始终提供相同的响应。
在这里插入图片描述
图 21:RLHF 学习根据提示类型调整温度。较低的 Self-BLEU 对应于更多的多样性:RLHF 消除了对事实提示的响应的多样性,但在生成对创造性提示的响应时保留了更多的多样性。我们为每个模型提供了一组不同的提示10 条创意说明和 10 条事实说明以及 25 条回答样本。对于温度重复此操作T ∈ { k/ 10 | k ≤ N : 1 ≤ k ≤ 15} 。对于 25 个响应中的每一个,我们计算 Self-BLEU 指标并报告相对于温度的平均值和标准偏差。
在这里插入图片描述
图 22:时间意识— 我们的模型概括了时间概念的图示,其中包含 1,000 个 SFT 以时间为中心的数据。
Llama 2-Chat 时间感知我们的模型展示了令人印象深刻的泛化能力,如图 22 所示。我们手动测试了数十个示例,并一致观察到我们的模型展示了以时间方式组织其知识的强大能力,即使提供的数据很少。为了在 Llama 2-Chat 中灌输时间概念,我们收集了一组 1,000 个与特定相关的 SFT 示例
日期。这些例子包括诸如“巴拉克·奥巴马成为总统多久前?”之类的问题。每个都与两个关键的元数据相关联:提出查询的日期(影响响应)和事件日期(在此之前的问题将是无意义的时间点)。观察结果表明,LLMs对时间概念的内化程度比之前假设的要大,尽管他们的训练仅基于下一个标记预测和随机洗牌的数据
不考虑他们的时间背景。
工具使用的出现正如Mialon等人所强调的那样,LLMs与工具的集成是一个不断发展的研究领域。 (2023)。 Toolformer中设计的方法(Schick 等人,2023)需要对数百万样本进行采样轨迹,并通过为每个工具制定少量示例来补充。尽管如此,该技术仅在每个示例中使用单个工具来应用,并且不会针对一系列工具使用进行扩展。
在这里插入图片描述
表 15:使用工具的性能。对Toolformer中使用的数学数据集进行评估。对于不同的基线,我们报告了 Schick 等人的分数。 (2023)。

在这里插入图片描述
图 23:工具使用的出现。 Llama 2-Chat 能够仅通过语义理解工具的应用程序和 API 参数,尽管从未接受过使用工具的训练。
OpenAI插件发布 在学术界引起了热烈的讨论,
诸如此类的问题:我们如何有效地教导模型使用工具?或者该过程是否需要大量数据集?我们的实验表明,工具的使用可以以零次方式自发地从对齐中出现。尽管我们从未明确注释工具的使用情况,但图 23 展示了一个实例,其中模型展示了在零样本环境中使用一系列工具的能力。
此外,我们的研究还扩展到通过计算器评估 Llama 2-Chat。这个特定实验的结果记录在表 15 中。LLM 工具的使用虽然令人兴奋,但也会引起一些安全问题。我们鼓励在这一领域进行更多的社区研究和红队合作。

5.2 限制和道德考虑

Llama 2-Chat 受到与其他LLMs相同的众所周知的限制,包括预训练后知识更新的停止、非事实生成的可能性(例如不合格的建议)以及产生幻觉的倾向。
此外,我们的 Llama 2-Chat 初始版本主要集中在英语数据上。
虽然我们的实验观察表明该模型已经在其他语言方面获得了一定的熟练程度,但其熟练程度是有限的,这主要是由于非英语语言中可用的预训练数据数量有限(如表 10 中所述)。因此,该模型在英语以外的语言中的性能仍然很脆弱,应谨慎使用。
与其他LLMs一样,Llama 2 由于其在公开可用的在线数据集上进行训练,可能会生成有害的、攻击性的或有偏见的内容。我们试图通过微调来缓解这一问题,但一些问题可能仍然存在,特别是对于英语以外的语言,因为这些语言没有公开可用的数据集。随着解决这些问题的进展,我们将在未来继续微调并发布更新版本。
并非每个使用人工智能模型的人都有良好的意图,对话式人工智能代理可能会被用于邪恶目的,例如生成错误信息或检索有关生物恐怖主义或网络犯罪等主题的信息。然而,我们已经努力调整模型以避免这些主题并削弱它们可能为这些用例提供的任何功能。
虽然我们试图合理地平衡安全性和有用性,但在某些情况下,我们的安全性调整太过分了。 Llama 2-Chat 的用户可能会观察到一种过于谨慎的方法,模型会犯错误,要么拒绝某些请求,要么回应太多安全细节。
预训练模型的用户需要特别谨慎,并且应该按照我们的负责任使用指南中所述采取额外的调整和部署步骤。
5.3 负责任的发布策略
发布详细信息。我们在 https://ai.meta上将 Llama 2 提供用于研究和商业用途。 com/resources/models-and-libraries/llama / .使用 Llama 2 的人必须遵守所提供的许可条款和我们的可接受使用政策,其中禁止任何违反适用政策、法律、规则和法规的使用。
我们还提供代码示例,帮助开发人员使用 Llama 2-Chat 复制我们的安全生成,并在用户输入和模型输出层应用基本安全技术。这些代码示例可在此处获取: https: //github.com/facebookresearch/llama 。最后,我们分享一份负责任的使用指南,它提供了有关安全开发和部署的指南。
负责任的发布。虽然许多公司选择秘密构建人工智能,但我们公开发布 Llama 2 以鼓励负责任的人工智能创新。根据我们的经验,开放式方法可以利用人工智能从业者社区的集体智慧、多样性和独创性来实现该技术的优势。协作将使这些模型变得更好、更安全。整个人工智能社区——学术研究人员、民间社会、政策制定者和行业——必须共同努力,严格分析和揭露当前人工智能系统的风险,并构建解决潜在滥用问题的解决方案。这种方法不仅促进了与大型科技公司之外的不同利益相关者的真正合作,而且还成为基础模型访问民主化的基石。正如 Zellers 等人所争论的那样。 (2019b),开放版本提高了透明度,让更多人能够使用人工智能工具,实现技术民主化和人工智能专业知识的去中心化。我们相信,人工智能专业知识的分散不仅仅是简单地传播知识,它还能刺激创新并加速行业进步。最后,公开发布这些模型可以整合成本并消除进入壁垒,使小型企业能够利用LLMs的创新来探索和构建文本生成用例。最终,我们相信这将为全球各种规模的组织创造一个更加公平的竞争环境,让他们从人工智能进步带来的经济增长中受益。
我们知道,并非每个使用人工智能模型的人都有良好的意图,并且我们承认,人们对人工智能将如何影响我们的世界存在合理的担忧。有毒内容的生成和有问题的关联是人工智能社区尚未完全缓解的重大风险。正如本文所述,我们在限制此类反应的流行方面取得了长足进步。虽然我们认识到还有更多工作要做,但这种认识只会加深我们对开放科学以及与人工智能社区合作的承诺。

6 相关工作

大型语言模型。近年来,LLMs领域发生了巨大的演变。遵循 Kaplan 等人的缩放定律。 (2020),已经提出了几种具有超过 100B 参数的大型语言模型,从 GPT-3 (Brown 等人,2020) 到 Gopher (Rae 等人,2022) 或专门的模型,例如用于科学的卡拉狄加 (Taylor)等人,2022)。 Chinchilla(Hoffmann 等人,2022)利用 70B 个参数,重新定义了针对标记数量而不是模型权重的缩放法则。这一进展中值得注意的是 Llama 的崛起,它因其对推理过程中计算效率的关注而受到认可( Touvron等人,2023)。围绕开源与闭源模型的动态展开了平行讨论。开源版本,如 BLOOM ( Scao et al., 2022)、OPT(Zhang et al., 2022) 和 Falcon
(Penedo 等人,2023)已经开始挑战 GPT-3 和 Chinchilla 等闭源同行。
然而,当谈到 ChatGPT、Bard 和 Claude 等“生产就绪”的 LLM 时,它们在性能和可用性方面存在显着差异。这些模型依赖于复杂的调整技术来符合人类偏好( Gudibande等人,2023),这一过程仍在开源社区中探索和完善。
缩小这一差距的尝试已经出现,基于蒸馏的模型,如 Vicuna (Chiang et al., 2023) 和 Alpaca ( Taori et al., 2023) 采用了独特的合成指令训练方法 ( Honovich et al., 2022) ;王等人,2022)。然而,尽管这些模型显示出了前景,但它们仍然没有达到闭源模型设定的标准。
指令调整。 魏等人。 (2021) 通过在大量数据集上微调 LLM,在未见过的任务上获得了零样本性能。钟等人。 (2022) 和 Longpre 等人。 (2023) 研究了指令调整对任务数量、模型大小、提示设置等的影响。用于指令调整的提示可以由人类或LLMs自己创建(Zhou 等人,2022),并遵循-up 指令可用于改进初始代,使其更有用、更有吸引力且更公正(Ganguli 等人,2023 年;Madaan 等人,2023 年)。与指令调整相关的一种方法是思想链提示(Wei et al., 2022b),其中在给出复杂问题时提示模型解释其推理,以增加其最终答案正确的可能性。
RLHF 已成为微调大型语言模型的强大策略,可显着提高其性能(Christiano 等人,2017)。该方法首先由Stiennon等人展示。 (2020)在文本摘要任务的背景下,已扩展到一系列其他应用程序。在这种范式中,模型根据人类用户的反馈进行微调,从而迭代地使模型的响应更接近人类的期望和偏好。
欧阳等人。 (2022) 表明,指令微调和 RLHF 的结合可以帮助解决事实性、毒性和有用性方面的问题,而这些问题无法通过简单地扩大LLMs规模来解决。白等人。 (2022b) 通过用模型自己的自我批评和修订替换人工标记的微调数据,以及在对 RLHF 中的模型输出进行排名时用模型替换人类评分者,部分自动化了这种微调加 RLHF 方法,这个过程被称为“人工智能反馈强化学习”(RLAIF)。
已知的LLMs安全挑战。最近的文献广泛探讨了与大型语言模型相关的风险和挑战。本德等人。 (2021b) 和 Weidinger 等人。 (2021) 强调了各种危险,例如偏见、毒性、私人数据泄露以及恶意使用的可能性。索莱曼等人。 (2023) 将这些影响分为两类——可以在基础系统内评估的影响和需要社会背景评估的影响,而 Kumar 等人。 (2022)提供了遏制危害的潜在缓解策略。 Roller 等人的工作。 (2020)和迪南等人。 (2021)还阐明了与面向聊天机器人的LLMs相关的困难,涉及从隐私到误导性专业知识声明等一系列问题。邓等人。 (2023) 提出了一个分类框架来解决这些问题,Bergman 等人。 (2022)深入研究了发布对话模型的潜在积极和消极影响之间的平衡。
Ganguli 等人的研究表明,对红队的调查揭示了调整后的LLMs面临的具体挑战。 (2022)和卓等人。 (2023) 展示了各种成功的攻击类型及其对有害内容生成的影响。国家安全机构和各种研究人员,例如( Mialon et al., 2023),也对高级新兴模型行为、网络威胁以及生物战等领域的潜在滥用发出了危险信号。最后,更广泛的社会问题,例如人工智能研究加速导致的工作流失以及对LLMs的过度依赖导致训练数据退化也是相关考虑因素(Acemoglu 和 Restrepo,2018 年;Autor 和 Salomons,2018 年;Webb,2019 年; Shumailov等人,2018 年)。 ,2023)。我们致力于继续就这些问题与更广泛的政策、学术和行业界进行合作。

7 结论

在这项研究中,我们引入了 Llama 2,这是一个新的预训练和微调模型系列,其参数规模为 70 亿至 700 亿个。这些模型已经证明了它们与现有开源聊天模型的竞争力,以及与我们检查的评估集上的一些专有模型相当的能力,尽管它们仍然落后于 GPT-4 等其他模型。我们精心阐述了用于实现我们的模型的方法和技术,重点强调它们与有用性和安全性原则的一致性。为了为社会做出更重大的贡献并加快研究步伐,我们负责任地开放了 Llama 2 和 Llama 2-Chat 的访问权限。作为我们对透明度和安全性持续承诺的一部分,我们计划在未来的工作中进一步改进 Llama 2-Chat。

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/你好赵伟/article/detail/298424?site
推荐阅读
相关标签
  

闽ICP备14008679号