赞
踩
最近,将视觉整合到大型语言模型(LLMs)中的兴趣显著增加,催生了大型视觉语言模型(LVLMs)。这些模型结合了视觉和文本信息,如LLaVA和Gemini,已经在包括图像字幕、视觉问题回答和图像检索等一系列任务中展示了不错的性能。然而,LVLMs表现出的行为很容易与其创造者预期的目标不一致,经常生成不真实或可能对用户有害的输出。
为了揭示和减轻这些安全风险,越狱攻击已经作为一种红队策略出现,以绕过防护措施并评估模型的一致性。越狱攻击后,攻击者可以说服模型做任何事情,导致严重的安全后果,例如生成有害或不道德的内容,这些内容通常受到一致性指南的禁止。虽然在LVLMs的背景下已经出现了许多使用越狱攻击的披露和演示,但大多数攻击传统上都集中在为越狱攻击扰动视觉模态(即图像)上。这些包括制作视觉对抗性示例和将攻击意图编码为排版图像。然而,对齐的LVLMs同时利用视觉和文本特征进行预测,从而限制了目前仅扰动单一模态(即视觉)的攻击的有效性。例如,LLaVA会在没有与文本提示相关联的视觉对抗性图像的情况下拒绝回答,导致越狱失败。
为了解决这个问题,本文介绍了双模态对抗性提示攻击(BAP),这是一种新的框架,通过同时优化视觉和文本提示来越狱LVLMs。
LVLM(Large Vision Language Model)是一种将视觉信息和文本信息融合在一起的大型语言模型。它通过结合图像和文本信息,能够在图像理解、图像生成、图像描述、视觉问答等多个任务中展现出强大的能力。
LVLM包含三个主要模块:
LVLM 的工作流程包括以下几个步骤:
双模态对抗性提示 (BAP) 是一种针对大型视觉语言模型 (LVLM) 的攻击方法,它通过同时优化文本和图像提示来绕过模型的安全限制,从而诱导模型生成有害内容。
查询不可知的视觉扰动:BAP利用一个由LLM构建的查询不可知语料库,该语料库包含与肯定前缀和否定抑制相关的句子。通过这个语料库,BAP优化视觉对抗性提示,使其能够鼓励LVLMs无论文本提示的具体意图如何都给出积极的响应。
意图特定的文本优化:在有了查询不可知的视觉对抗性提示后,BAP进一步优化文本提示,以增强在特定有害意图下的越狱能力。这通常遵循以下三个阶段:
BAP 的攻击流程如下:
模型和数据集:
评价指标: 使用攻击成功率(Attack Success Rate, ASR)作为主要指标来评估方法的有效性。
攻击方法对比: 将BAP与两种最先进的越狱攻击进行了比较:Liu等人的方法和Qi等人的方法。Liu等人的方法结合了与攻击意图相关的图像和排版文本作为视觉对抗性提示。Qi等人的方法基于特定场景的语料库优化了视觉对抗性提示。
对BAP方法的两个组成部分进行了消融研究:查询不可知的视觉扰动和意图特定的文本优化。
实验结果表明,BAP 在各种 LVLM 和场景下都取得了显著的攻击效果,证明了其有效性。BAP 的研究对于提高 LVLM 的安全性具有重要意义。
GitHub - NY1024/BAP-Jailbreak-Vision-Language-Models-via-Bi-Modal-Adversarial-Prompt
SafetyBench是一个全面的基准测试,旨在通过多项选择题来评估LLM的安全性能。该数据集包含11435道多项选择题,涵盖7个不同的安全隐患类别,并且支持中英文两种语言。SafetyBench的目的是提供一个可靠的评估框架,以帮助研究人员和开发者全面了解LLM的安全性。
官网下载地址:github.com/thu-coai/SafetyBench
AdvBench则专注于评估和比较LLM在面对恶意提示和后缀时的安全性和鲁棒性。它包含了一些恶意的提示和后缀,可以诱导LLM生成有害或不良的文本,如制造炸弹、散布谣言、煽动暴力等。AdvBench的设计旨在提高对LLM攻击的认识和防范,以及促进LLM的安全性研究。此外,AdvBench还包括一个名为AdvBench Subset的子集,包含50个提示,要求提供32个类别的有害信息。
官网下载地址:github.com/thunlp/Advbench
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。