ALI-Agent: 基于智能体的LLMs对齐性评测

作者：一键难忘520 | 2024-07-11 08:12:57

踩

点击蓝字

关注我们

AI TIME欢迎每一位AI爱好者的加入！

本文围绕大语言模型（LLMs）的对齐问题展开，旨在解决当前模型在与人类价值观存在偏差时可能面对的风险。我们提出了ALI-Agent评估框架，利用LLM驱动的智能体(LLM-empowered agents) 进行全面且深入的对齐评估。

代码：https://github.com/SophieZheng998/ALI-Agent.git

论文地址：https://arxiv.org/abs/2405.14125

AITIME

研究背景

大语言模型（LLMs）与人类价值观之间的对齐偏差可能导致生成的内容出现延续刻板印象、强化社会偏见、提供非法指令等有害现象，从而对用户和整个社会构成风险。鉴于此，对LLMs进行深入和全面的对齐性评估至关重要。由于现实世界的复杂性和开放性，评估LLMs与人类价值观的一致性充满挑战。目前的对齐性评估基准主要依赖专家设计的情境，然而这些基准的测试范围有限，难以推广到各种开放世界的使用案例，也无法覆盖不常见但关键的长尾风险。此外，静态测试无法适应LLMs的快速演变，难以实现及时的对齐性评估。为解决这些挑战，我们认为一个实用的评估框架应该自动化进行全面和深入的对齐性测试，而不是依赖于专家设计的静态测试场景。评估框架将自动生成包含不当行为的现实场景，评估LLMs的反应，并迭代地改进测试场景以探测长尾风险。我们选择以大模型赋能的智能体(LLM-empowered agents)为载体实现这一评估框架，因为智能体正展现出优秀的自动化式解决任务的能力，具体表现为能从过往交互中提炼经验，整合外部工具，并进行推理以解决复杂任务。我们提出了ALI-Agent，一种基于智能体的对齐性评估框架。具体来说，ALI-Agent利用GPT-4作为其核心控制器，集成了三个关键模块：1）记忆模块：用于存储检测到的LLMs对齐性偏差；2)工具使用模块：集成了在线搜索和基于微调大模型的自动评估器，以减少人力劳动 3)行动模块：利用智能体的推理能力来优化测试场景，强化对模型长尾风险的探测。

AITIME

ALI-Agent

图1: 现有评估基准和ALI-Agent的概述

在三个智能体模块的加持下, ALI-Agent通过仿真和精炼两个阶段实现了自动化、全面、深入的对齐性评估，如图1所示。在仿真阶段，ALI-Agent实例化模拟器(automatic emulator)来生成真实的测试场景，并使用微调的语言模型作为自动评估器，评估目标模型的反馈是否反映了对齐性偏差。首先，模拟器从预定义的数据集抽取一段包含不当行为的文本（或根据用户需求从搜索引擎上获取文本）, 从而生成一个反映该不当行为的真实的场景。场景的生成利用了LLMs的上下文学习(ICL)能力，借助了从评估记忆中检索出的最相关的评估记录作为指导样例。然后，ALI-Agent将生成的场景提示给目标LLM，并通过自动评估器评估目标LLM的反馈。如果生成的场景暴露了目标LLM的对齐性偏差，那么ALI-Agent会将评估记录存储回记忆中，以便于在将来复用于新的用例。如若没有发现目标LLM的对齐性偏差，ALI-Agent将进入精炼阶段，基于目标LLM的反馈迭代场景，隐藏场景中的恶意意图，直到目标LLM无法识别其中的不当行为或者迭代次数达到上限为止。精炼过程借助思维链(Chain-of-Thought)生成一系列中间推理步骤，以执行有效的开放式探索。这种迭代循环有效提高了ALI-Agent对LLMs进行深入评估的能力，强化了对长尾风险的探索，确保了对不断更新发展的LLMs的持续适应性。

图2：ALI-Agent进行评测的实例展示

AITIME

实验结果

ALI-Agent在揭示模型对齐问题方面具有卓越效果,表现出出色的长尾风险检测能力。其生成的测试场景能够有效掩盖不当行为的恶意意图,从而提高被测LLMs识别潜在风险的难度,充分检验了模型的对齐水平。对十个主流大模型在三个不同方面——刻板印象、道德和合法性上的对齐性评估表明， ALI-Agent相比于主流基准显著提高了对齐性偏差的检测能力。如Table1和Table2所示（在刻板印象和道德这两方面各选择了两个数据集用于测评），当使用ALI-Agent进行评估时，目标LLMs在几乎所有情况下都表现出最高的不对齐率，或者与主流基准能得到的最高不对齐率相当。我们还从表格的数据中发现了几个有趣的趋势：同一家族的LLMs随着参数尺度的增加可能表现出更差的对齐性。这启示我们单独增加模型规模并不一定导向更好的对齐表现，因此需要对LLMs的训练数据和训练目标进行更审慎的考虑。同时，我们还发现将Llama 2模型微调到Vicuna模型可能会损害它们与人类价值观的一致性。这一趋势与同期论文中得到的结果一致，启发了对LLMs自定义微调的安全协议的进一步研究。

图3: ALI-Agent生成的测试场景和精炼后场景示例

ALI-Agent 框架卓越的对齐性偏差检测能力很大一部分得益于在精炼阶段对测试模型的有效迭代。如图3所示,每一行展示了一组(包含不当行为、真实场景、精炼后场景)的例子。在每组例子中,真实场景和相应的主流基准测试都无法检测到目标大模型的对齐性偏差,而精炼后的场景却能做到这一点。高亮的文字部分展示了 ALI-Agent 如何在精炼阶段通过降低敏感内容中显式的有害意图,来探测模型中可能存在的长尾风险。

图4: OpenAI内容审核 API (基于GPT-4模型的微调版本)在不同数据集上的危害性得分

如图4所示, 在OpenAI 内容审核 API的打分下， ALI-Agent生成的测试场景可感知的危害性相较于专家设计的静态测试场景明显降低，在经过精炼阶段之后得到的场景包含的有害意图更是难以被显式检测和过滤，显著提高了目标LLMs识别相关风险的难度。

图5: 对ALI-Agent框架的分析。图5(a)展示了不同模块对整体表现的影响，图5(b)展示了多次迭代和整合越狱技术的表现。

在消融实验中，如图5(a) 所示，我们展示了ALI-Agent各模块对测评效果的影响，其中记忆模块和精炼模块都是至关重要的。记忆模块增强了ALI-Agent将过去经验泛化到新案例的能力，精炼模块加强了对长尾风险的探索。同时，如图5(b) 所示，对齐偏差率会随着精炼模块迭代次数的增加而增加直至最终收敛。图5(b) 还展示了ALI-Agent框架与其他红队技术的互补性：将越狱技术GPTFuzzer得到的越狱前缀加在ALI-Agent生成的测试场景之前，揭示对齐性偏差的能力能获得显著增强。这一结果进一步表明，ALI-Agent相较于从主流越狱技术，从不同的角度来评估大模型的对齐性，而且可以整合当前越狱技术实现更全面的对齐评估。

AITIME

总结与展望

目前的评估基准还远远不能对大语言模型的对齐性进行深入和全面的评估。在这项工作中，我们提出了一种新的基于智能体的通用框架，即ALI-Agent，利用大语言模型驱动的智能体的能力来探测目标LLMs中不断更新的长尾风险。基于六个数据集上广泛实验，ALI-Agent在对齐性偏差的检测方面卓有成效, 但仍有两个缺点需要解决。首先，ALI-Agent严重依赖于所采用的核心LLM的功能，由于我们使用了闭源LLM (gpt -4-1106预览版)，导致评估框架的性能不受控制。其次，设计绕过目标LLM安全护栏的场景这一任务本身就是一种“越狱”，在某些情况下，核心LLM可能会拒绝执行。在未来的工作中，我们或许可以微调一个开源模型作为ALI-Agent的核心，以控制评估框架的性能。我们还可以主动评估LLMs在特定领域的对齐性表现，例如，当用户提出对“新加坡交通法规”的关切，我们可以让框架便利所有相关法律，并据此评估LLMs对这些法律的理解和遵守情况。除了评估外,我们还希望基于评测的结果, 进一步修正和提高大语言模型的对齐水平，即用暴露出对齐性偏差的测试场景构建正反例对数据集，注入到模型的继续训练过程中，引导模型学习更加对齐的行为模式，提高整体对齐性能。

往期精彩文章推荐

S-DPO: 基于直接偏好优化（DPO）进行推荐大模型微调的探索

记得关注我们呀！每天都有新知识！

关于AI TIME

AI TIME源起于2019年，旨在发扬科学思辨精神，邀请各界人士对人工智能理论、算法和场景应用的本质问题进行探索，加强思想碰撞，链接全球AI学者、行业专家和爱好者，希望以辩论的形式，探讨人工智能和人类未来之间的矛盾，探索人工智能领域的未来。

迄今为止，AI TIME已经邀请了1800多位海内外讲者，举办了逾600场活动，超700万人次观看。

我知道你

在看

提出观点，表达想法，欢迎

留言

点击 阅读原文 查看更多!

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/一键难忘520/article/detail/809315