当前位置:   article > 正文

人工智能学术顶会——NeurIPS 2022 议题(网络安全方向)清单、摘要与总结

ai安全顶会

按语:随着大模型的崛起,将AI再次推向一个高峰,受到的关注也越来越大。在网络安全领域,除4大安全顶会外,一些涉及AI的安全话题,包括对AI的攻防研究,以及应用AI做安全的研究方向,也会发表在AI顶会上。但是,像NeurIPS 2022年的议题就有2834个(2023年还在 call for papers),手工翻一遍都得很久,何况还要分类出安全主题的,更是费劲,因此我利用AI去做主题分类,把感兴趣的议题识别出来并自动翻译,可以大大地节省议题筛选的时间。其它AI顶会每年的议题量也是数以千计,多得根本看不过来。在这个论文主题分类上,发现还是GPT4比较准确,其它都不行,排第二名的是Claude+,其次是ChatGPT。奈何GPT4的用量有限,没法直接用来分析这近3千个议题。总之,用大模型来洞察行业技术发展也是个不错的尝试,下次有时间可以开发个“基于AI的网络安全技术洞察系统”,AI都帮我起好名称了——“鹰眼”。

b1b3de3d181dcbff18dae02a63442f0f.png

总结

NeurIPS顶会中关于网络安全的议题,主要涵盖以下方向:

  1. 对抗样本攻击与防御:仍然是热门问题,包括对抗训练、对抗性防御、量化鲁棒性等。当前基本解决攻击者已知的情况,但面对未知攻击尚无有效方法。

  2. 数据毒化、后门攻击与防御:后门攻兴起已久,但仍存在难以消除和检测已有后门的问题。目前防御仍需要改进。

  3. 隐私机器学习:差分隐私机器学习和联邦学习持续不断地改进,但仍存在难题。

  4. 强化学习安全性:针对强化学习中的后门与对抗等挑战方面仍少量工作。

热门方向:

  1. 对抗样本攻击与防御;

  2. 数据毒化攻击与防御;

  3. 隐私机器学习。

冷门方向:

  1. 利用频域重新思考CNN的鲁棒性;

  2. 利用社交媒体评论增强文本分类; 

  3. 考虑新增量子对抗曲率加密的攻击方法。

值得更多关注的是强化学习安全性、未知攻击下的鲁棒性、可解释性下的网络安全。

b02ed822d4767bc08e3c5fff940e582b.png

1、A General Framework for Auditing Differentially Private Machine Learning

Fred Lu, Joseph Munoz, Maya Fuchs, Tyler LeBlond, Elliott Zaresky-Williams, Edward Raff, Francis Ferraro, Brian Testa

我们提出了一个框架,用于在实践中统计审核差分隐私机器学习器所提供的隐私保证。虽然以前的研究已经采取措施通过污染攻击或成员推断来评估隐私损失,但它们都是针对特定模型进行了定制,或者证明了低统计功率。我们的工作开发了一种通用方法,结合改进的隐私搜索和验证方法以及基于影响的污染攻击工具包,来实证评估差分隐私机器学习实现的隐私性。我们在包括逻辑回归、朴素贝叶斯和随机森林在内的各种模型上展示了显著改进的审核能力。我们的方法可以用于检测由于实现错误或误用而造成的隐私违规。当没有违规时,它可以帮助理解给定数据集、算法和隐私规范泄漏的信息量。

论文链接:https://proceedings.neurips.cc/paper_files/paper/2022/file/1add3bbdbc20c403a383482a665eb5a4-Paper-Conference.pdf

29af2222e3893c8b34fc686ffce76f25.png

2、A Unified Evaluation of Textual Backdoor Learning: Frameworks and Benchmarks

Ganqu Cui, Lifan Yuan, Bingxiang He, Yangyi Chen, Zhiyuan Liu, Maosong Sun

文本后门攻击是NLP系统面临的一种实际威胁。通过在训练阶段注入后门,攻击者可以通过预定义的触发器控制模型预测。由于已经提出了各种攻击和防御模型,因此进行严格的评估非常重要。然而,我们强调先前的后门学习评估存在两个问题:(1)忽略了现实世界场景的差异(例如发布有毒的数据集或模型),我们认为每个场景都有自己的限制和关注点,因此需要特定的评估协议;(2)评估指标仅考虑攻击是否能够翻转模型对有毒样本的预测并在良性样本上保持性能,但忽略了有毒样本也应该是隐蔽和语义保持的。为了解决这些问题,我们将现有工作分为三个实际场景,其中攻击者分别发布数据集、预训练模型和微调模型,然后讨论它们独特的评估方法。在指标方面,为了完全评估有毒样本,我们使用语法错误增加和困惑度差异来衡量隐蔽性,以及文本相似性来衡量有效性。在规范化框架之后,我们开发了一个开源工具包OpenBackdoor,以促进文本后门学习的实现和评估。使用此工具包,我们进行了广泛的实验,以基准测试建议范例下的攻击和防御模型。为了促进针对有毒数据集的未开发防御,我们进一步提出了CUBE,一个简单而强大的基于聚类的防御基线。我们希望我们的框架和基准测试可以作为未来模型开发和评估的基石。

论文链接:https://proceedings.neurips.cc/paper_files/paper/2022/file/2052b3e0617ecb2ce9474a6feaf422b3-Paper-Datasets_and_Benchmarks.pdf

73d396f1e424ee97a7515ade3bf3d665.png

3、Accelerating Certified Robustness Training via Knowledge Transfer

Pratik Vaishnavi, Kevin Eykholt, Amir Rahmati

训练深度神经网络分类器以在对抗攻击下具有可证明的鲁棒性对于确保AI控制系统的安全性和可靠性至关重要。虽然已经开发了许多最先进的认证训练方法,但它们在计算上是昂贵的,并且在数据集和网络复杂性方面的扩展性较差。认证训练的广泛使用受到定期重新训练是必要的以纳入新数据和网络改进的事实的进一步阻碍。在本文中,我们提出了一种名为Certified Robustness Transfer(CRT)的通用框架,通过知识转移来降低任何可证明的鲁棒训练方法的计算开销。给定一个鲁棒的老师,我们的框架使用一种新的训练损失将老师的鲁棒性转移到学生身上。我们提供CRT的理论和实证验证。我们在CIFAR-10上的实验表明,CRT在三个不同架构代的情况下平均加速了8倍的认证鲁棒性训练,同时实现了与最先进方法相当的鲁棒性。我们还表明,CRT可以扩展到像ImageNet这样的大规模数据集。

论文链接:https://proceedings.neurips.cc/paper_files/paper/2022/file/22bf0634985f4e6dbb1fb40e247d1478-Paper-Conference.pdf

d3632030546efd3cac0a77af3398627a.png

4、Adv-Attribute: Inconspicuous and Transferable Adversarial Attack on Face Recognition

Shuai Jia, Bangjie Yin, Taiping Yao, Shouhong Ding, Chunhua Shen, Xiaokang Yang, Chao Ma

深度学习模型在应对对抗攻击时表现出了其脆弱性。现有的攻击几乎都是在低级实例(如像素和超像素)上进行的,并且很少利用语义线索。对于面部识别攻击,现有的方法通常在像素上生成l_p范数扰动,然而,这导致攻击可转移性较低,对去噪防御模型的脆弱性较高。在这项工作中,我们不是在低级像素上进行扰动,而是建议通过扰动高级语义来生成攻击,以提高攻击可转移性。具体而言,我们设计了一个统一的灵活框架——Adversarial Attributes (Adv-Attribute),用于在面部识别中生成不引人注目且可转移的攻击,该框架通过根据目标的面部识别特征差异来设计对抗性噪声,并将其添加到不同的属性中。此外,我们引入了重要度感知的属性选择和多目标优化策略,以进一步确保隐秘性和攻击强度的平衡。在FFHQ和CelebA-HQ数据集上进行了大量实验证明,所提出的Adv-Attribute方法在维持较好的视觉效果的同时,实现了最先进的攻击成功率。

论文链接:https://proceedings.neurips.cc/paper_files/paper/2022/file/dccbeb7a8df3065c4646928985edf435-Paper-Conference.pdf

2bfcc1ad1101914a0d6236aa6b5e282f.png

5、Adversarial Attack on Attackers: Post-Process to Mitigate Black-Box Score-Based Query Attacks

Sizhe Chen, Zhehao Huang, Qinghua Tao, Yingwen Wu, Cihang Xie, Xiaolin Huang

基于分数的查询攻击(SQAs)通过在数十个查询中仅使用模型的输出分数来制作对抗扰动,对深度神经网络构成实际威胁。然而,我们注意到,如果输出的损失趋势稍微受到干扰,SQAs就可能很容易被误导,从而变得不太有效。基于这个想法,我们提出了一种新颖的防御方法,即针对攻击者的对抗攻击(AAA),通过轻微修改输出 logits 来混淆 SQAs,使其朝错误的攻击方向发展。通过这种方式,(1)无论模型的最坏情况下的鲁棒性如何,都可以防止 SQAs; (2)原始模型的预测几乎不会改变,即干净准确率不会降低; (3)同时可以改善置信度分数的校准。我们进行了大量实验来验证上述优点。例如,在 CIFAR-10 上将 ℓ∞=8/255 设置为 AAA,我们的提出的 AAA 可以帮助 WideResNet-28 在 Square 攻击(2500 次查询)下获得80.59%的准确率,而最佳的先前防御(即对抗性训练)仅获得67.44%的准确率。由于 AAA 攻击了 SQAs 的通用贪婪策略,因此 AAA 相对于 8 种防御措施的优势可以在 6 种 SQAs、使用不同攻击目标、边界、范数、损失和策略的 8 个 CIFAR-10 / ImageNet 模型上持续观察到。此外,AAA 通过改进校准而不降低准确率。我们的代码可在 https://github.com/Sizhe-Chen/AAA 上获得。

论文链接:https://proceedings.neurips.cc/paper_files/paper/2022/file/5fa29a2f163ce2020769eca8956e2d77-Paper-Conference.pdf

0abf958ed8bb9c939e9aaa3225749bd7.png

6、Adversarial Robustness is at Odds with Lazy Training

Yunjuan Wang, Enayat Ullah, Poorya Mianjy, Raman Arora

最近的研究表明,对于随机神经网络存在对抗样本[Daniely和Schacham,2020],并且可以使用单步梯度上升[Bubeck等,2021]找到这些样本。在本文中,我们将这一研究延伸到神经网络的“懒惰训练”——在深度学习理论中占主导地位的模型,其中神经网络可以被证明是高效可学习的。我们展示了过度参数化的神经网络可以保证良好的泛化性能和强大的计算保证,但仍然容易受到使用单步梯度上升生成的攻击。

论文链接:https://proceedings.neurips.cc/paper_files/paper/2022/file/2aab664e0d1656e8b56c74f868e1ea69-Paper-Conference.pdf

accdae131d239f5bd6ba58b3248259aa.png

7、Adversarial Training with Complementary Labels: On the Benefit of Gradually Informative Attacks

Jianan Zhou, Jianing Zhu, Jingfeng ZHANG, Tongliang Liu, Gang Niu, Bo Han, Masashi Sugiyama

对于带有不完整监督的对抗训练(AT)的研究尽管具有重要意义,但受到了限制性的关注。为了将AT推向更实际的场景,我们探索了一个全新且具有挑战性的设置,即使用补充标签(CLs)进行AT,这些标签指定了一个数据样本不属于的类。然而,将AT与现有的CLs方法直接组合会导致一致的失败,但不会在两阶段训练的简单基线上失败。在本文中,我们进一步探索了这种现象,并确定了AT与CLs面临的根本挑战,即难以处理的对抗优化和低质量的对抗样本。为了解决上述问题,我们提出了一种新的学习策略,使用逐步信息攻击,它包括两个关键组件:1)热身攻击(Warm-up)轻轻提高对抗扰动预算以缓解与CLs的对抗优化;2)伪标签攻击(PLA)将逐步具有信息的模型预测整合到校正的补充损失中。进行了大量实验,以证明我们的方法在一系列基准数据集上的有效性。代码可在以下网址公开获取:https://github.com/RoyalSkye/ATCL。

论文链接:https://proceedings.neurips.cc/paper_files/paper/2022/file/959f70ee50044bed305e48e3484005a7-Paper-Conference.pdf

cdd3153abfe56d0932253a8bedcd8c06.png

8、Adversarial training for high-stakes reliability

Daniel Ziegler, Seraphina Nix, Lawrence Chan, Tim Bauman, Peter Schmidt-Nielsen, Tao Lin, Adam Scherlis, Noa Nabeshima, Benjamin Weinstein-Raun, Daniel de Haas, Buck Shlegeris, Nate Thomas

在未来,强大的人工智能系统可能会被部署在高风险的场景中,如一次失败可能会造成灾难性的后果。提高高风险场景下人工智能安全性的一种技术是对抗训练,它利用对手生成示例来进行训练,以实现更好的最坏情况性能。在这项工作中,我们使用了一个安全的语言生成任务(“避免受伤”)作为通过对抗训练实现高可靠性的测试平台。我们创建了一系列对抗训练技术,包括一种协助人类对手的工具,以查找并消除过滤器中的失误。在我们的任务中,我们发现可以设置非常保守的分类器阈值,而不会显著影响过滤输出的质量。我们发现,对抗训练显著增加了对我们进行训练的对抗攻击的鲁棒性,将发现对抗性示例的时间从没有工具的情况下增加了三倍,而有了我们的工具后增加了一倍(从13分钟增加到26分钟),而不影响分布内性能。我们希望看到更多的高风险可靠性设置的工作,包括更强大的工具来增强人类对手,以及更好的衡量高可靠性的方法,直到我们可以自信地排除强大模型在部署时发生灾难性失败的可能性。

论文链接:https://proceedings.neurips.cc/paper_files/paper/2022/file/3c44405d619a6920384a45bce876b41e-Paper-Conference.pdf

a0c543c8ce6d09b97ebaa8e950ec5492.png

9、Amplifying Membership Exposure via Data Poisoning

Yufei Chen, Chao Shen, Yun Shen, Cong Wang, Yang Zhang

随着野外数据在训练阶段中的应用越来越多,机器学习应用变得更易受到数据污染攻击。这些攻击通常会导致测试时准确度下降或者受到控制的误判。在本文中,我们调查了数据污染的第三种利用方式——增加对良性训练样本隐私泄露的风险。为此,我们展示了一组数据污染攻击,以放大目标类别的成员曝光率。我们首先提出了一个通用的针对有监督分类算法的脏标签攻击。然后,在迁移学习场景下,我们提出了一种基于优化的干净标签攻击,其中污染样本被正确标记并且“自然”以逃避人工审核。我们在计算机视觉基准测试中广泛评估了我们的攻击。我们的结果表明,所提出的攻击可以大幅提高成员推断的准确性,同时最小化测试时模型性能的总体下降。为了减轻我们攻击可能带来的负面影响,我们还调查了可行的对策。

论文链接:https://proceedings.neurips.cc/paper_files/paper/2022/file/c0f240bb986df54b38026398da1ae72a-Paper-Conference.pdf

9cdf7013a730dbfc24bb984a696412b2.png

10、Anonymized Histograms in Intermediate Privacy Models

Badih Ghazi, Pritish Kamath, Ravi Kumar, Pasin Manurangsi

我们研究了私密计算匿名直方图(又称未标记直方图)的问题,该直方图定义为没有项目标签的直方图。以前的工作在差分隐私(DP)的中心模型中提供了具有Oε(√n)的ℓ1和ℓ22误差的算法。在这项工作中,我们提供了一个算法,在混洗DP和全局隐私模型中具有近乎匹配的误差保证,即˜Oε(√n)。我们的算法非常简单:它只是后处理离散Laplace噪声的直方图!使用这个算法作为子程序,我们展示了在私密估计分布的对称性质,如熵、支持覆盖和支持大小方面的应用。

论文链接:https://proceedings.neurips.cc/paper_files/paper/2022/file/380afe1a245a3b2134010620eae88865-Paper-Conference.pdf

384e768fd3430653197a7627def7eab6.png

11、Are You Stealing My Model? Sample Correlation for Fingerprinting Deep Neural Networks

Jiyang Guan, Jian Liang, Ran He

一款现成的模型作为商业服务可能会遭遇模型窃取攻击,这对模型所有者的权益构成了巨大威胁。模型指纹技术旨在验证可疑模型是否是从受害模型中盗取的,这在当今引起了越来越多的关注。以往的方法通常利用可转移的对抗样本作为模型指纹,这对于对抗防御或迁移学习场景非常敏感。为解决这个问题,我们考虑样本之间的成对关系,并提出了一种基于样本相关性(SAC)的新颖而简单的模型窃取检测方法。具体而言,我们提出了SAC-w,它选取被错误分类的正常样本作为模型输入,并计算它们的模型输出之间的平均相关性。为了缩短训练时间,我们进一步开发了SAC-m,它选取CutMix增强样本作为模型输入,无需训练代理模型或生成对抗样本。广泛的结果验证了SAC成功抵御各种模型窃取攻击,甚至包括对抗训练或迁移学习,并在不同数据集和模型架构上以AUC为指标展现了最佳性能。代码可在https://github.com/guanjiyang/SAC上获取。

论文链接:https://proceedings.neurips.cc/paper_files/paper/2022/file/ed189de2611f200bd4c2ab30c576e99e-Paper-Conference.pdf

49d750fe265748b7a4ed77f03ddd2086.png

12、Autoregressive Perturbations for Data Poisoning

Pedro Sandoval-Segura, Vasu Singla, Jonas Geiping, Micah Goldblum, Tom Goldstein, David Jacobs

社交媒体数据采集作为获取数据集的手段的普及,引发了对数据未经授权使用的日益关注。数据中毒攻击被提出作为抵御采集的防线,因为它们通过添加微小、不可察觉的扰动使数据无法被“学习”。不幸的是,现有方法需要知道目标架构和完整数据集的信息,以便训练代理网络,其参数用于生成攻击。在本文中,我们介绍了自回归(AR)中毒,一种可以生成中毒数据而无需访问更广泛数据集的方法。所提出的自回归扰动是通用的,可以应用于不同的数据集,并可以中毒不同的架构。与现有的不可学习方法相比,我们的AR毒素更加抵抗常见的防御措施,如对抗性训练和强数据增强。我们的分析进一步提供了什么因素构成有效的数据毒素的见解。

论文链接:https://proceedings.neurips.cc/paper_files/paper/2022/file/af66ac99716a64476c07ae8b089d59f8-Paper-Conference.pdf

92f60753dbe7bac1d291a0041ceff4b5.png

13、BackdoorBench: A Comprehensive Benchmark of Backdoor Learning

Baoyuan Wu, Hongrui Chen, Mingda Zhang, Zihao Zhu, Shaokui Wei, Danni Yuan, Chao Shen

后门学习是研究深度神经网络易受攻击性的一个新兴而重要的主题。许多开创性的后门攻击和防御方法正在以快速的军备竞赛的状态下相继提出。然而,我们发现新方法的评估往往不够彻底,无法验证它们的声明和准确性能,主要是由于快速发展、不同的设置以及实现和再现的困难。没有彻底的评估和比较,很难跟踪当前的进展并设计文献未来的发展路线图。为了缓解这一困境,我们建立了一个全面的后门学习基准称为BackdoorBench。它由一个可扩展的基于模块的代码库(目前包括8个最先进的攻击和9个最先进的防御算法的实现)和一个完整后门学习的标准化协议组成。我们还对8个攻击和9个防御之间的每一对进行全面的评估,使用5个模型和4个数据集,因此总共有8,000对评估。我们从不同的角度提供了关于这8,000个评估的丰富分析,研究后门学习中不同因素的影响。BackdoorBench的所有代码和评估都可以公开获取,网址为https://backdoorbench.github.io。

论文链接:https://proceedings.neurips.cc/paper_files/paper/2022/file/4491ea1c91aa2b22c373e5f1dfce234f-Paper-Datasets_and_Benchmarks.pdf

d883010bca638d0a58dad254a02afa45.png

14、BadPrompt: Backdoor Attacks on Continuous Prompts

Xiangrui Cai, Haidong Xu, Sihan Xu, Ying ZHANG, Yuan xiaojie

最近,基于提示的学习范式受到了广泛的研究关注。它在几个自然语言处理任务中取得了最先进的性能,特别是在少样本情况下。尽管在引导下游任务的同时,很少有工作涉及到研究基于提示模型的安全问题。本文针对连续提示学习算法的后门攻击漏洞进行了首次研究。我们观察到,少样本情况对基于提示的模型的后门攻击构成了巨大的挑战,限制了现有自然语言处理后门方法的可用性。为了解决这个挑战,我们提出了BadPrompt,一个轻量级和任务自适应算法,用于后门攻击连续提示。具体来说,BadPrompt首先生成候选触发器,这些触发器能够预测目标标签,并且与非目标标签的样本不相似。然后,它使用自适应触发器优化算法,自动选择对每个样本最有效且不可见的触发器。我们在五个数据集和两个连续提示模型上评估了BadPrompt的性能。结果表明,BadPrompt能够有效地攻击连续提示,同时在干净的测试集上保持高性能,远远超过基准模型。BadPrompt的源代码是公开可用的。

论文链接:https://proceedings.neurips.cc/paper_files/paper/2022/file/f0722b58f02d7793acf7d328928f933a-Paper-Conference.pdf

ae1525ce4ec956f6391939f2e9436a65.png

15、BagFlip: A Certified Defense Against Data Poisoning

Yuhao Zhang, Aws Albarghouthi, Loris D'Antoni

机器学习模型容易受到数据污染攻击,攻击者恶意修改训练集以改变学习模型的预测结果。在无触发器攻击中,攻击者可以修改训练集但不能修改测试输入,而在后门攻击中,攻击者还可以修改测试输入。现有的模型无关防御方法要么无法处理后门攻击,要么不能提供有效的证明(即防御的证明)。我们提出了BagFlip,这是一种模型无关的认证方法,可以有效地防御无触发器攻击和后门攻击。我们在图像分类和恶意软件检测数据集上评估了BagFlip。对于无触发器攻击,BagFlip与最先进的方法相当或更有效,对于后门攻击,BagFlip比最先进的方法更有效。

论文链接:https://proceedings.neurips.cc/paper_files/paper/2022/file/cc19e4ffde5540ac3fcda240e6d975cb-Paper-Conference.pdf

3116412a9ccbe00b293769b570c49d3a.png

16、Blackbox Attacks via Surrogate Ensemble Search

Zikui Cai, Chengyu Song, Srikanth Krishnamurthy, Amit Roy-Chowdhury, Salman Asif

黑盒对抗攻击可分为转移和查询两种类型。转移方法不需要受害模型的任何反馈,但与查询方法相比,成功率较低。查询攻击通常需要大量的查询才能成功。为了实现两种方法的最佳结合,最近的研究尝试将它们结合起来,但仍需要数百个查询才能实现高成功率(特别是针对性攻击)。在本文中,我们提出了一种通过代理集成搜索(BASES)进行黑盒攻击的新方法,可以使用极少量的查询生成高度成功的黑盒攻击。我们首先定义了一个扰动机器,通过最小化固定集合上的一组代理模型的加权损失函数来生成扰动图像。为了针对给定的受害模型生成攻击,我们使用扰动机器生成的查询在损失函数的权重上进行搜索。由于搜索空间的维数很小(与代理模型的数量相同),因此搜索只需要少量查询。我们证明了我们提出的方法在使用比ImageNet(包括VGG-19、DenseNet-121和ResNext-50)训练的不同图像分类器时,与最先进的方法相比,使用至少30倍少的查询可以实现更好的成功率。特别是,我们的方法平均每个图像只需要3个查询就可以实现针对性攻击的90%以上的成功率,对于无目标攻击,每个图像只需要1-2个查询就可以实现99%以上的成功率。我们的方法在Google Cloud Vision API上也很有效,每个图像只需要2.9个查询就可以实现91%的无目标攻击成功率。我们还展示了我们提出的方法生成的扰动具有很强的可转移性,并可用于硬标签黑盒攻击。此外,我们认为,BASES可用于创建各种任务的攻击,并展示了其对目标检测模型的攻击效果。我们的代码可在 https://github.com/CSIPlab/BASES 上获得。

论文链接:https://proceedings.neurips.cc/paper_files/paper/2022/file/23b9d4e18b151ba2108fb3f1efaf8de4-Paper-Conference.pdf

59474cbb9f0b0031acebe94d510e07a4.png

17、Boosting the Transferability of Adversarial Attacks with Reverse Adversarial Perturbation

Zeyu Qin, Yanbo Fan, Yi Liu, Li Shen, Yong Zhang, Jue Wang, Baoyuan Wu

深度神经网络(DNN)已被证明对对抗样本存在漏洞,这些样本通过注入难以察觉的扰动可以产生错误的预测。本研究探讨对抗样本的可转移性,这是一个重要问题,因为在实际应用中,模型的结构或参数通常是未知的。许多现有的研究表明,对抗样本很可能会过度拟合它们生成的代理模型,从而限制其对不同目标模型的传输攻击性能。为了减轻代理模型的过拟合问题,我们提出了一种新的攻击方法,称为反向对抗扰动(RAP)。具体而言,我们提倡在寻找对抗样本时,不是最小化单个对抗点的损失,而是注重寻找位于统一低损失值区域的对抗样本,通过在优化过程的每个步骤中注入最坏情况的扰动(即反向对抗扰动)。RAP的对抗攻击被公式化为最小化-最大化双层优化问题。通过将RAP集成到攻击的迭代过程中,我们的方法可以找到更稳定的对抗样本,这些样本对决策边界的变化不太敏感,从而减轻代理模型的过拟合问题。全面的实验比较表明,RAP可以显著提高对抗样本的可转移性。此外,RAP可以自然地与许多现有的黑盒攻击技术相结合,以进一步提高可转移性。在攻击实际的图像识别系统,Google Cloud Vision API时,我们相对于比较方法获得了22%的有针对性的攻击性能提升。我们的代码可在https://github.com/SCLBD/TransferattackRAP上获得。

论文链接:https://proceedings.neurips.cc/paper_files/paper/2022/file/c0f9419caa85d7062c7e6d621a335726-Paper-Conference.pdf

a02acdd4f7ee7d5ae447e04621486f0e.png

18、Brownian Noise Reduction: Maximizing Privacy Subject to Accuracy Constraints

Justin Whitehouse, Aaditya Ramdas, Steven Z. Wu, Ryan M. Rogers

研究人员和实践者在隐私-效用权衡方面处理问题的方法存在差异。研究人员主要从隐私优先的角度出发,设定严格的隐私要求,并在这些限制条件下最小化风险。实践者通常希望采用准确性优先的视角,可能会满足于在获得足够小的误差的前提下获得最大程度的隐私保护。Ligett等人提出了一种“降噪”算法来解决后一种视角。作者表明,通过添加相关的拉普拉斯噪声,并在需求逐渐降低噪声的情况下,可以产生一系列越来越准确的私有参数估计,并且只为最不嘈杂的迭代结果付出隐私成本。在这项工作中,我们将“降噪”推广到高斯噪声的设置中,引入了布朗机制。布朗机制的工作原理是首先添加高方差的高斯噪声,对应于模拟布朗运动的最终点。然后,在实践者的自由裁量下,通过沿着布朗路径向后追溯噪声逐渐减少到早期的时间。我们的机制更适用于常见的有界 ℓ2 敏感性设置,经验证实在常见的统计任务中表现优于现有的工作,并且可以在整个与实践者的交互过程中提供可定制的隐私损失控制。我们将我们的布朗机制与ReducedAboveThreshold相结合,它是经典的AboveThreshold算法的推广,提供了自适应的隐私保证。总体而言,我们的结果表明,人们可以在满足效用约束的同时,仍然保持很强的隐私保护水平。

论文链接:https://proceedings.neurips.cc/paper_files/paper/2022/file/48aaa5ea741ae8430bd58e25917d267d-Paper-Conference.pdf

3694e66be9d785a360d503be50ed0e29.png

19、Byzantine-tolerant federated Gaussian process regression for streaming data

Xu Zhang, Zhenyuan Yuan, Minghui Zhu

本文考虑使用高斯过程回归(GPR)实现对拜占庭容错联邦学习的实时数据处理。具体而言,云端和一组代理共同学习一个潜在函数,其中一些代理可能受到拜占庭攻击。我们开发了一个拜占庭容错的联邦GPR算法,包括三个模块:基于代理的本地GPR、基于云端的聚合GPR和基于代理的融合GPR。我们推导出了预测误差的上限,该误差是基于云端聚合GPR的平均值和目标函数之间的误差,假设拜占庭代理少于所有代理的四分之一。我们还表征了预测方差的下限和上限。我们在一个合成数据集和两个真实数据集上进行实验,以评估所提出的算法。

论文链接:https://proceedings.neurips.cc/paper_files/paper/2022/file/57c56985d9afe89bf78a8264c91071aa-Paper-Conference.pdf

89b526a76fd05f88b86e91c8d24ebba9.png

20、CATER: Intellectual Property Protection on Text Generation APIs via Conditional Watermarks

Xuanli He, Qiongkai Xu, Yi Zeng, Lingjuan Lyu, Fangzhao Wu, Jiwei Li, Ruoxi Jia

之前的研究已经验证了,文本生成API可以通过模仿攻击被盗用,从而导致知识产权侵犯。为了保护文本生成API的知识产权,最近的研究引入了一种水印算法,并利用零假设检验作为后续所有权验证来验证模仿模型。然而,我们发现通过候选水印词频的充分统计量,可以检测到这些水印。为了解决这个缺点,本文提出了一种新的条件水印框架(CATER)来保护文本生成API的知识产权。提出了一种优化方法,用于决定可以最小化总体单词分布扭曲而最大化条件单词选择变化的水印规则。从理论上讲,我们证明了即使是最精明的攻击者(他们知道CATER如何工作)也无法从潜在的大量单词对中基于统计检查揭示使用的水印。从经验上讲,我们观察到高阶条件导致可疑(未使用的)水印呈指数增长,使我们精心设计的水印更加隐蔽。此外,CATER可以有效地识别架构不匹配和跨域模仿攻击下的知识产权侵权,并对受害者API的生成质量几乎没有影响。我们将我们的工作视为保护文本生成API知识产权的重要里程碑。

论文链接:https://proceedings.neurips.cc/paper_files/paper/2022/file/2433fec2144ccf5fea1c9c5ebdbc3924-Paper-Conference.pdf

da1a480257858b13fb41dd6829f939ca.png

21、Can Adversarial Training Be Manipulated By Non-Robust Features?

Lue Tao, Lei Feng, Hongxin Wei, Jinfeng Yi, Sheng-Jun Huang, Songcan Chen

对抗训练最初是为了抵抗测试时的对抗性样本,但已经显示出在缓解训练时可用性攻击方面具有潜力。然而,本文挑战了这种防御能力。我们确定了一个名为稳定性攻击的新威胁模型,其旨在通过轻微操纵训练数据来阻碍强健可用性。在这种威胁下,我们展示了在简单的统计设置中,使用传统的防御预算 $\epsilon$ 进行对抗性训练无法提供测试的强健性,其中训练数据的非强健特征可以通过 $\epsilon$ 有界扰动得到强化。此外,我们分析了扩大防御预算以对抗稳定性攻击的必要性。最后,全面的实验表明,稳定性攻击对基准数据集具有破坏性,因此自适应防御对于维护强健性是必要的。

论文链接:https://proceedings.neurips.cc/paper_files/paper/2022/file/a94a8800a4b0af45600bab91164849df-Paper-Conference.pdf

6eee6bfe80820a7ab59ae4abe208b25f.png

22、Certifying Robust Graph Classification under Orthogonal Gromov-Wasserstein Threats

Hongwei Jin, Zishun Yu, Xinhua Zhang

图分类器容易受到拓扑攻击。虽然最近已经开发了鲁棒性证书,但其威胁模型仅考虑局部和全局边扰动,有效忽略了重要的图结构,如同构。为解决这个问题,我们提出使用正交Gromov-Wasserstein距离度量扰动,并构建其Fenchel共轭以便于凸优化。我们的关键洞察来自匹配损失,其根据通过单调算子连接两个变量,并为图节点上的电阻距离提供了紧密的外凸逼近。当应用于通过图卷积网络进行图分类时,我们的证书和攻击算法都被证明是有效的。

论文链接:https://proceedings.neurips.cc/paper_files/paper/2022/file/0b6b00f384aa33fec1f3d6bcf9550224-Paper-Conference.pdf

4953aa9488399cfcd26ef1ac4033ba35.png

23、Chartalist: Labeled Graph Datasets for UTXO and Account-based Blockchains

Kiarash Shamsi, Friedhelm Victor, Murat Kantarcioglu, Yulia Gel, Cuneyt G Akcora

区块链图谱上的机器学习是一个新兴领域,具有许多应用,例如勒索软件支付跟踪、价格操纵分析和洗钱检测。然而,分析区块链数据需要领域专业知识和计算资源,这构成了一个重要障碍,阻碍了该领域的进展。我们介绍了Chartalist,这是第一个系统地访问和使用大量区块链上的机器学习的综合平台,以解决这一挑战。Chartalist包含来自未花费交易输出(UTXO)(例如比特币)和基于账户的区块链(例如以太坊)的机器学习准备好的数据集。我们预计Chartalist可以促进区块链数据的数据建模、分析和表示,并吸引更广泛的科学家社区来分析区块链。Chartalist是一个开放科学倡议,网址为 https://github.com/cakcora/Chartalist。

论文链接:https://proceedings.neurips.cc/paper_files/paper/2022/file/e245189a86310b6667ac633dbb922d50-Paper-Datasets_and_Benchmarks.pdf

8db570b7834c401cc5b37a3ee502b819.png

24、Counterfactual Fairness with Partially Known Causal Graph

Aoqi Zuo, Susan Wei, Tongliang Liu, Bo Han, Kun Zhang, Mingming Gong

公平机器学习旨在避免基于“敏感属性”(如性别和种族)对个人或子群体进行不公平对待。建立在因果推断基础上的公平机器学习方法通过因果效应确定歧视和偏见。尽管基于因果关系的公平学习越来越受到关注,但当前方法假定真实的因果图完全已知。本文提出了一种通用方法,在真实因果图未知的情况下实现反事实公平的概念。为了选择导致反事实公平的特征,我们推导了识别变量之间祖先关系的条件和算法,特别是在部分有向无环图(PDAG)上,这是一类可以从观察数据和领域知识中学习的因果有向图。有趣的是,当提供特定背景知识时:敏感属性在因果图中没有祖先时,可以实现反事实公平,就像真实的因果图已完全知晓一样。模拟和真实世界数据集的结果证明了我们方法的有效性。

论文链接:https://proceedings.neurips.cc/paper_files/paper/2022/file/08887999616116910fccec17a63584b5-Paper-Conference.pdf

4375dcecc18e25e5cf8a98adfbdf46c4.png

25、Counterfactual Neural Temporal Point Process for Estimating Causal Influence of Misinformation on Social Media

Yizhou Zhang, Defu Cao, Yan Liu

近年来,见证了在社交媒体上传播特定叙述的虚假信息宣传活动的兴起,以操纵公众对不同领域(如政治和医疗保健)的观点。因此,需要一种有效和高效的自动方法来估计虚假信息对用户信念和活动的影响。然而,现有的虚假信息影响估计研究要么依赖于小规模的心理实验,要么仅能发现用户行为和虚假信息之间的相关性。为了解决这些问题,本文建立了一个因果框架,从时间点过程的角度对虚假信息的因果效应进行建模。为了适应大规模数据,我们设计了一种既高效又精确的方法,通过神经时间点过程和高斯混合模型来估计个体处理效应(ITE)。对合成数据集的广泛实验验证了我们模型的有效性和效率。我们进一步将我们的模型应用于有关COVID-19疫苗的社交媒体帖子和参与度的真实数据集上。实验结果表明,我们的模型识别出虚假信息的可识别因果效应,对人们对疫苗的主观情绪产生了伤害。

论文链接:https://proceedings.neurips.cc/paper_files/paper/2022/file/45542d647974ca6af58441c4817c9b5b-Paper-Conference.pdf

cf75a6b544beb91cf09f0a1a5d56bc42.png

26、Counterfactual harm

Jonathan Richens, Rory Beard, Daniel H. Thompson

为了在现实世界中安全并且符合道德行为,智能体必须能够推理出伤害并避免有害的行为。然而,迄今为止,还没有一种统计方法可以衡量伤害并将其纳入算法决策中。在本文中,我们提出了使用因果模型对伤害和好处进行首个正式定义。我们展示了任何关于伤害的事实定义都无法在某些情况下识别有害行为,并证明了那些无法进行反事实推理的标准机器学习算法在分布变化后保证会追求有害的策略。我们利用我们对伤害的定义,设计了一个使用反事实目标函数的避免伤害决策框架。我们通过使用从随机对照试验数据中学习的剂量-反应模型,来演示这个框架在确定最佳药物剂量问题上的应用。我们发现,使用治疗效果来选择剂量的标准方法会导致不必要的有害剂量,而我们的反事实方法确定了明显更少有害但不影响功效的剂量。

论文链接:https://proceedings.neurips.cc/paper_files/paper/2022/file/ebcf1bff7b2fe6dcc3fbe666faaa50f1-Paper-Conference.pdf

aa7c9fde02b1f53c0084ed948350582d.png

27、DISCO: Adversarial Defense with Local Implicit Functions

Chih-Hui Ho, Nuno Vasconcelos

本文考虑了针对图像分类的对抗性防御问题,其中目标是使分类器对抗性示例具有鲁棒性。受到这些示例超出自然图像流形的假设的启发,提出了一种新的具有局部隐式函数的对抗性防御 (DISCO),通过局部流形投影来消除对抗性扰动。DISCO使用对抗性图像和查询像素位置,输出位置上的干净RGB值。它由编码器和局部隐式模块实现,其中前者产生每个像素的深度特征,后者使用查询像素邻域中的特征来预测干净的RGB值。广泛的实验表明,无论防御是否为攻击者所知,DISCO及其级联版本都优于之前的防御。还证明了DISCO具有数据和参数效率,并能够跨数据集、分类器和攻击进行防御。

论文链接:https://proceedings.neurips.cc/paper_files/paper/2022/file/96930636e3fb63935e2af153d1cc40a3-Paper-Conference.pdf

ba932befa711895e6424fd0095df1331.png

28、DOPE: Doubly Optimistic and Pessimistic Exploration for Safe Reinforcement Learning

Archana Bura, Aria HasanzadeZonuzy, Dileep Kalathil, Srinivas Shakkottai, Jean-Francois Chamberland

安全强化学习极具挑战性——不仅必须在未知环境中进行探索,还必须确保不违反安全约束。我们使用有限时间限制的马尔可夫决策过程(CMDP)框架以及未知的转移概率函数来构建这个安全强化学习问题。我们将安全要求建模为对所有学习过程中必须满足的预期累积成本的约束。我们提出了一种基于模型的安全强化学习算法,称为“双重乐观和悲观探索”(DOPE),并证明它在学习过程中不违反安全约束,同时实现一个目标遗憾度 $\tilde{O}(|\mathcal{S}|\sqrt{|\mathcal{A}| K})$。其中,$|\mathcal{S}|$是状态数,$|\mathcal{A}|$是动作数,$K$是学习的次数。我们的关键思想是将探索的奖励加成(乐观)与保守约束(悲观)相结合,除了标准的乐观模型探索。DOPE不仅能够改善目标遗憾度界限,而且相比早期的乐观-悲观方法显示出显著的实证性能提升。

论文链接:https://proceedings.neurips.cc/paper_files/paper/2022/file/076a93fd42aa85f5ccee921a01d77dd5-Paper-Conference.pdf

1b8a06c935bbe95c67df19921ed10b09.png

29、DReS-FL: Dropout-Resilient Secure Federated Learning for Non-IID Clients via Secret Data Sharing

Jiawei Shao, Yuchang Sun, Songze Li, Jun Zhang

联邦学习(FL)旨在实现机器学习模型的协作训练,同时避免集中收集客户的私有数据。与集中式训练不同,FL中客户端的本地数据集是非独立同分布的(non-IID)。此外,拥有数据的客户端可能会任意退出训练过程。这些特征将显著降低训练性能。本文提出了一种基于拉格朗日编码计算(LCC)的“抗失效安全联邦学习”(DReS-FL)框架,以解决非IID和失效问题。关键思想是利用拉格朗日编码将私有数据集秘密地在客户端之间共享,以便每个客户端接收到全局数据集的编码版本,并且对于该数据集的本地梯度计算是无偏的。为了在服务器上正确解码梯度,梯度函数必须是一个有限域上的多项式,因此我们构建了多项式整数神经网络(PINN)来实现我们的框架。理论分析表明,DReS-FL对客户端失效具有鲁棒性,并为本地数据集提供隐私保护。此外,我们的实验结果表明,DReS-FL始终比基准方法显著提高性能。

论文链接:https://proceedings.neurips.cc/paper_files/paper/2022/file/448fc91f669c15d10364ee01d512cc10-Paper-Conference.pdf

7fb21cdc24a1d3e281736e2f269855b3.png

30、Defending Against Adversarial Attacks via Neural Dynamic System

Xiyuan Li, Zou Xin, Weiwei Liu

深度神经网络(DNN)虽然取得了巨大的成功,但由于其容易受到对抗性攻击的影响,其在安全关键领域的应用受到了阻碍。一些最近的工作从动态系统的角度提出了增强DNN鲁棒性的方法。在这条研究路线的指导下,受到一般非自治动力系统的渐近稳定性启发,我们提出使每个干净实例成为一个缓慢时变系统的渐近稳定平衡点,以应对对抗性攻击。我们提出了一个理论保证,即如果一个干净实例是一个渐近稳定的平衡点,并且对抗实例在该点的邻域内,则渐近稳定性将减少对抗性噪声,将对抗实例接近干净实例。受到我们理论结果的启发,我们进一步提出了一个非自治神经常微分方程(ASODE),并对其相应的线性时变系统进行约束,使所有干净实例都作为其渐近稳定平衡点。我们的分析表明,这些约束可以在实现中转换为正则化器。实验结果表明,ASODE提高了对抗性攻击的鲁棒性,并优于现有方法。

论文链接:https://proceedings.neurips.cc/paper_files/paper/2022/file/299a08ee712d4752c890938da99a77c6-Paper-Conference.pdf

23847f2d3165d7296d90ca8ba499f60c.png

31、Delving into Sequential Patches for Deepfake Detection

Jiazhi Guan, Hang Zhou, Zhibin Hong, Errui Ding, Jingdong Wang, Chengbin Quan, Youjian Zhao

最近人脸伪造技术的进展导致几乎无法被追踪的深度伪造视频的出现,这可能会被恶意利用。因此,研究人员致力于深度伪造检测。先前的研究已经确定了局部低级线索和时间信息在推广深度伪造方法方面的重要性,然而,它们仍然存在对后处理的鲁棒性问题。在这项工作中,我们提出了局部和时间感知的基于变压器的深度伪造检测(LTTD)框架,采用局部到全局的学习协议,特别关注局部序列中有价值的时间信息。具体来说,我们提出了局部序列变压器(LST),它模拟受限空间区域序列上的时间一致性,其中低级别信息通过学习的浅层3D滤波器进行层次化增强。基于局部时间嵌入,我们然后以全局对比的方式实现最终分类。对流行数据集的广泛实验验证了我们的方法有效地发现局部伪造线索并实现了最先进的性能。

论文链接:https://proceedings.neurips.cc/paper_files/paper/2022/file/1d051fb631f104cb2a621451f37676b9-Paper-Conference.pdf

93ca5f1de30770d9081f5749fb56cdab.png

32、Differentially Private Model Compression

FatemehSadat Mireshghallah, Arturs Backurs, Huseyin A. Inan, Lukas Wutschitz, Janardhan Kulkarni

最近的研究论文表明,像BERT、GPT-2这样的大型预训练语言模型可以在私有数据上进行微调,以实现与许多下游自然语言处理(NLP)任务的非私有模型相当的性能,同时保证差分隐私。然而,这些模型(由数亿个参数组成)的推理成本可能会过高。因此,在实践中,经常在部署到特定应用程序之前对LLMs进行压缩。在本文中,我们开始研究差分私有模型压缩,并提出了在保持几乎完整性能的同时实现50%稀疏级别的框架。我们使用BERT模型在标准GLUE基准测试上演示了这些想法,并为未来关于此主题的研究设定了基准。

论文链接:https://proceedings.neurips.cc/paper_files/paper/2022/file/bd6bb13e78da078d8adcabbe6d9ca737-Paper-Conference.pdf

dd0411591601f9b8e5ccb2a47e2b2ffa.png

33、Effective Backdoor Defense by Exploiting Sensitivity of Poisoned Samples

Weixin Chen, Baoyuan Wu, Haoqian Wang

毒化式后门攻击对于从不可信来源的数据训练深度模型构成了严重威胁。针对已有后门模型,我们观察到带有触发器的毒化样本的特征表示对变换更为敏感,而干净样本则不然。这启发我们设计了一个简单的敏感度度量标准,称为特征一致性变换度量(FCT),以区分不可信训练集中的毒化样本和干净样本。此外,我们提出了两种有效的后门防御方法。第一种方法基于使用FCT度量的样本区分模块,使用两阶段安全训练模块从头开始训练安全模型。第二种方法使用后门删除模块从带后门的模型中删除后门,该模块交替地取消区分出的毒化样本并重新学习区分出的干净样本。在三个基准数据集上的广泛结果表明,与现有的后门防御措施相比,这两种方法都具有出色的防御性能,可以抵御八种类型的后门攻击。代码可在以下网址获取:https://github.com/SCLBD/Effectivebackdoordefense。

论文链接:https://proceedings.neurips.cc/paper_files/paper/2022/file/3f9bbf77fbd858e5b6e39d39fe84ed2e-Paper-Conference.pdf

6f6fa2d83afbd94859357b69580ca520.png

34、Evolution of Neural Tangent Kernels under Benign and Adversarial Training

Noel Loo, Ramin Hasani, Alexander Amini, Daniela Rus

现代深度学习面临的两个主要挑战是缓解深度网络对对抗攻击的脆弱性,以及理解深度学习的泛化能力。针对第一个问题,已经开发了许多防御策略,其中最常见的是对抗训练(AT)。针对第二个挑战,出现了一种主导理论,即神经切向核(NTK)——一种在无限宽度极限下刻画神经网络行为的方法。在这种极限下,内核被冻结,基础特征图被固定。在有限的宽度下,有证据表明特征学习发生在早期的培训阶段(内核学习)之前,之后内核保持不变(惰性培训)。虽然以前的工作旨在通过冻结无限宽度 NTK 的视角研究对抗性脆弱性,但没有研究在培训过程中对 NTK 的对抗鲁棒性。在这项工作中,我们进行了一项对标准训练和对抗训练下 NTK 进化的实证研究,旨在澄清对抗训练对内核学习和惰性训练的影响。我们发现,在对抗训练下,NTK 迅速收敛到不同的内核(和特征映射)比标准训练。这个新内核提供了对抗鲁棒性,即使在其上执行非鲁棒训练也是如此。此外,我们发现,在固定内核的基础上进行对抗训练可以产生一个分类器,在 CIFAR-10 上进行 PGD 攻击时,ε=4/255 的鲁棒准确度达到 76.1%。

论文链接:https://proceedings.neurips.cc/paper_files/paper/2022/file/4bc4e9ecd5ae4a75048dc216a770cba1-Paper-Conference.pdf

00e92dd9081db3302874bd4cbed5ff8e.png

35、Exploring the Limits of Domain-Adaptive Training for Detoxifying Large-Scale Language Models

Boxin Wang, Wei Ping, Chaowei Xiao, Peng Xu, Mostofa Patwary, Mohammad Shoeybi, Bo Li, Anima Anandkumar, Bryan Catanzaro

预训练语言模型(LMs)被证明容易产生有毒语言。在这项工作中,我们系统地探索了域自适应训练以减少语言模型的毒性。我们在三个维度上进行了这项研究:训练语料库、模型大小和参数效率。对于训练语料库,我们证明使用自动生成的数据集始终优于现有基线,在各种模型大小和自动和人工评估中得到了证明,即使它使用3 1较小的训练语料库。然后,我们全面研究了参数大小从126M到530B的去毒LMs(比GPT3大3倍),这是一个从未被研究过的规模。我们发现,i)大型LMs在给定相同预训练语料库的情况下具有类似的毒性水平,ii)大型LMs需要更多的努力来忘记预训练中看到的有毒内容。我们还探索了参数有效的去毒化训练方法。我们证明,在LMs中添加和训练仅适配器层不仅可以节省很多参数,而且可以在大规模模型的毒性和困惑之间实现更好的权衡。我们的代码将在以下网址提供:https://github.com/NVIDIA/Megatron-LM/.

论文链接:https://proceedings.neurips.cc/paper_files/paper/2022/file/e8c20cafe841cba3e31a17488dc9c3f1-Paper-Conference.pdf

32dae3819b81c662d574949c6f8004bf.png

36、FairVFL: A Fair Vertical Federated Learning Framework with Contrastive Adversarial Learning

Tao Qi, Fangzhao Wu, Chuhan Wu, Lingjuan Lyu, Tong Xu, Hao Liao, Zhongliang Yang, Yongfeng Huang, Xing Xie

纵向联邦学习(VFL)是一种隐私保护的机器学习范例,可以在隐私保护的情况下从分布在不同平台上的特征学习模型。由于在现实世界的应用中,数据可能在公正敏感特征(例如性别)上存在偏差,因此VFL模型可能会从训练数据中继承偏差,并对某些用户群体不公平。然而,现有的公平机器学习方法通常依赖于集中存储公正敏感特征来实现模型公正性,这在联邦场景中通常不适用。在本文中,我们提出了一个公平的纵向联邦学习框架(FairVFL),可以提高VFL模型的公正性。FairVFL的核心思想是在保护隐私的情况下,基于分散的功能域学习样本的统一和公平的表示。具体来说,具有公正无关特征的每个平台首先从本地特征中学习本地数据表示。然后,这些本地表示被上传到服务器并聚合成用于目标任务的统一表示。为了学习公平统一表示,我们将其发送到存储公正敏感特征的每个平台,并应用对抗性学习从偏差数据中消除继承的偏差。此外,为了保护用户隐私,我们进一步提出了一种对比对抗学习方法,在将其发送到保留公正敏感特征的平台之前,在服务器中删除统一表示中的私人信息。在三个真实世界的数据集上的实验验证了我们的方法可以有效地提高模型的公正性,并保护用户隐私。

论文链接:https://proceedings.neurips.cc/paper_files/paper/2022/file/333a7697dbb67f09249337f81c27d749-Paper-Conference.pdf

cbecf9b5ef602f8994ded19d1e8314df.png

37、Fault-Aware Neural Code Rankers

Jeevana Priya Inala, Chenglong Wang, Mei Yang, Andres Codas, Mark Encarnación, Shuvendu Lahiri, Madanlal Musuvathi, Jianfeng Gao

大型语言模型(LLMs)已经展示了在各种编程任务中生成代码的令人印象深刻的能力。在许多情况下,当给定多次尝试时,LLMs可以生成正确的程序。因此,最近的一个趋势是使用模型进行大规模的程序采样,然后根据程序在少量已知单元测试上的执行情况进行过滤/排名,以选择一个候选解决方案。然而,这些方法假设单元测试已经给出,并假设能够安全地执行生成的程序(这些程序可以执行任意危险操作,如文件操作)。以上两种假设在实际的软件开发中都是不切实际的。在本文中,我们提出了CodeRanker,一种神经排名器,可以在不执行程序的情况下预测采样程序的正确性。我们的CodeRanker是故障感知的,即它被训练以预测不同类型的执行信息,例如预测精确的编译/运行时错误类型(例如IndexError或TypeError)。我们展示了CodeRanker可以显着提高各种代码生成模型(包括Codex、GPT-Neo、GPT-J)在APPS、HumanEval和MBPP数据集上的pass@1准确度。

论文链接:https://proceedings.neurips.cc/paper_files/paper/2022/file/5762c579d09811b7639be2389b3d07be-Paper-Conference.pdf

7f229a70414d34090c10c52b8b2f172f.png

38、Finding Naturally Occurring Physical Backdoors in Image Datasets

Emily Wenger, Roma Bhattacharjee, Arjun Nitin Bhagoji, Josephine Passananti, Emilio Andere, Heather Zheng, Ben Zhao

广泛的后门毒攻击文献研究了使用“数字触发模式”进行后门攻击和防御的方法。相比之下,“物理后门”使用物理对象作为触发器,最近才被确定,并且在质量上与针对数字触发后门的大多数防御不同。物理后门的研究受到包含与误分类目标共同定位的真实物体图像的大型数据集获取的限制,这种数据集的构建需耗费大量时间和精力。本研究旨在解决物理后门攻击研究的可访问性挑战。我们假设在像ImageNet这样的流行数据集中已经存在自然共存的物理对象。一旦确定,对这些数据的仔细重新标记可以将它们转化为用于物理后门攻击的训练样本。我们提出了一种方法来可伸缩地识别现有数据集中的这些潜在触发子集,以及它们可以污染的具体类别。我们将这些自然触发子集和类别称为自然后门数据集。我们的技术成功地在广泛可用的数据集中识别了自然后门,并生成了与手动筛选数据集训练的模型行为上等效的模型。我们发布了我们的代码,以允许研究社区创建自己的研究物理后门攻击的数据集。

论文链接:https://proceedings.neurips.cc/paper_files/paper/2022/file/8af749935131cc8ea5dae4f6d8cdb304-Paper-Datasets_and_Benchmarks.pdf

23d275393108f0095c1857a21e1a2cc0.png

39、Formulating Robustness Against Unforeseen Attacks

Sihui Dai, Saeed Mahloujifar, Prateek Mittal

现有的对抗样本防御措施(如对抗训练)通常假定对手将符合特定的或已知的威胁模型,例如在固定预算内的ℓp扰动。在本文中,我们关注的情况是,在训练期间,防御所假定的威胁模型与测试时对手的实际能力不匹配。我们提出了这个问题:如果学习者针对特定的“源”威胁模型进行训练,那么我们何时可以期望鲁棒性推广到更强的未知“目标”威胁模型?我们的关键贡献是正式定义了在面对未知对手时的学习和泛化问题,这有助于我们从已知对手的传统视角来推断对抗风险的增加。应用我们的框架,我们推导出一个泛化界限,它将源和目标威胁模型之间的泛化差距与特征提取器的变化联系起来,该变化衡量了在给定威胁模型下提取的特征之间的预期最大差异。基于我们的泛化界限,我们提出了变化正则化(VR),它在训练期间减少了源威胁模型下特征提取器的变化。我们在经验上证明,使用VR可以导致对测试时的未知攻击的改进推广,并将VR与感知对抗训练(Laidlaw等人,2021)相结合,实现了在未知攻击方面的最先进的鲁棒性。我们的代码公开可用于https://github.com/inspire-group/variation-regularization。

论文链接:https://proceedings.neurips.cc/paper_files/paper/2022/file/392ac56724c133c37d5ea746e52f921f-Paper-Conference.pdf

8856ecadb76afacaa266d558d20b2597.png

40、Friendly Noise against Adversarial Noise: A Powerful Defense against Data Poisoning Attack

Tian Yu Liu, Yu Yang, Baharan Mirzasoleiman

一种强大的(隐形的)数据污染攻击类别通过对一些训练样本进行微小的对抗扰动来改变某些测试数据的预测结果。现有的防御机制在实践中不可行,因为它们往往会严重损害泛化性能,或者是针对特定攻击的,并且难以应用。在这里,我们提出了一种简单但高效的方法,与现有方法不同,它可以在泛化性能最轻微的下降时打破各种类型的隐形污染攻击。我们的关键观察是攻击会引入高训练损失的局部尖锐区域,当最小化这些区域时,就会学习到对抗扰动并使攻击成功。为了打破污染攻击,我们的关键思想是减轻毒物引入的尖锐损失区域。为此,我们的方法包括两个部分:一种优化的友好噪声,被生成以最大程度地扰动示例而不降低性能,以及一个随机变化的噪声组件。这两个部分的组合构建了一种非常轻量级但极其有效的防御,针对最强大的无触发目标和隐藏触发后门污染攻击,包括梯度匹配、靶心多面体和睡眠特工。我们展示了我们友好的噪声可以转移到其他架构,并且自适应攻击由于其随机噪声组件而无法打破我们的防御。

论文链接:https://proceedings.neurips.cc/paper_files/paper/2022/file/4e81308aa2eb8e2e4eccf122d4827af7-Paper-Conference.pdf

09b966a64e8898e5baa11ee6f9fbf51f.png

41、GAMA: Generative Adversarial Multi-Object Scene Attacks

Abhishek Aich, Calvin-Khang Ta, Akash Gupta, Chengyu Song, Srikanth Krishnamurthy, Salman Asif, Amit Roy-Chowdhury

大多数对抗攻击方法都聚焦于具有单个主导对象的场景(例如,来自ImageNet的图像)。另一方面,自然场景包括多个语义相关的主导对象。因此,探索设计攻击策略,超越学习单个对象场景或攻击单个对象受害者分类器是至关重要的。由于扰动具有强大的传递性本质,可以传递到未知模型,因此本文提出了一种使用生成模型进行对抗攻击的方法,用于多对象场景。为了表示输入场景中不同对象之间的关系,我们利用了开源的预训练视觉语言模型CLIP(对比语言-图像预训练),以利用语言空间中编码的语义以及视觉空间。我们将这种攻击方法称为生成对抗多对象攻击(GAMA)。GAMA展示了CLIP模型作为攻击者工具的实用性,用于训练多对象场景的强大扰动生成器。使用联合图像文本特征来训练生成器,我们展示了GAMA可以在各种攻击设置中制造强大的可传递扰动,以欺骗受害者分类器。例如,在黑盒设置中,GAMA触发的误分类比最先进的生成方法高出约16%,其中攻击者的分类器架构和数据分布与受害者不同。我们的代码在此处可用:https://abhishekaich27.github.io/gama.html

论文链接:https://proceedings.neurips.cc/paper_files/paper/2022/file/efbd571f139d26604e53fe2760e2c073-Paper-Conference.pdf

f38cf39a0fbad522d16535aed92d9207.png

42、Identification, Amplification and Measurement: A bridge to Gaussian Differential Privacy

Yi Liu, Ke Sun, Bei Jiang, Linglong Kong

高斯差分隐私(GDP)是一种单参数隐私概念家族,提供了一致的保证,以避免敏感个人信息的泄露。尽管组合下GDP提供了额外的可解释性和更紧密的界限,但许多广泛使用的机制(例如拉普拉斯机制)本质上提供GDP保证,但通常未利用这个新框架,因为它们的隐私保证是在不同的背景下得出的。在本文中,我们研究了隐私配置的渐近性质,并开发了一个简单的标准来识别具有GDP属性的算法。我们提出了一种高效的方法,用于GDP算法缩小可能的最优隐私测量值μ,其具有任意小且可量化的误差范围。对于非GDP算法,我们提供了一种后处理过程,可以放大现有的隐私保证,以满足GDP条件。作为应用,我们比较了两个单参数隐私概念家族,ϵ-DP和μ-GDP,并表明所有ϵ-DP算法本质上也是GDP。最后,我们展示了我们的测量过程和GDP组合定理的组合是一种强大而方便的工具,用于处理组合,相比传统的标准和高级组合定理。

论文链接:https://proceedings.neurips.cc/paper_files/paper/2022/file/4a29e8bc94b4c5d21d58a4fffdff800b-Paper-Conference.pdf

ec305c14c224dfa9bc4aba2f07394688.png

43、Learning to Attack Federated Learning: A Model-based Reinforcement Learning Attack Framework

Henger Li, Xiaolin Sun, Zizhan Zheng

我们提出了一个基于模型的强化学习框架,用于针对联邦学习(FL)系统进行非定向攻击。我们的框架首先利用服务器的模型更新来近似客户端聚合数据的分布。然后使用学习到的分布构建FL环境的模拟器,并通过强化学习来学习自适应攻击策略。即使服务器采用强健的聚合规则,我们的框架也能够自动学习强大的攻击。我们进一步推导了攻击者由于分布估计不准确而导致的性能损失的上限。实验结果表明,所提出的攻击框架在真实世界数据集上明显优于现有的毒化攻击技术。这表明了为FL系统开发自适应防御的重要性。

论文链接:https://proceedings.neurips.cc/paper_files/paper/2022/file/e2ef0cae667dbe9bfdbcaed1bd91807b-Paper-Conference.pdf

6596186c9042edb04f645d5b03d56b16.png

44、Lethal Dose Conjecture on Data Poisoning

Wenxiao Wang, Alexander Levine, Soheil Feizi

数据毒化是指某个对手为了恶意目的而扭曲机器学习算法的训练集。本文提出了一项关于数据毒化基础的推测,称之为致命剂量推测。该推测表明:如果需要n个干净的训练样本进行准确预测,则在大小为N的训练集中,只能容忍$\Theta(N/n)$个毒化样本而确保准确性。在理论上,我们在多个案例中验证了这个推测。通过分布磨合,我们还提供了一种更一般的观点。深度分区聚合(DPA)及其扩展,有限聚合(FA)是抵御数据毒化的可证明防御的最近方法,它们通过训练来自训练集不同子集的许多基础模型的多数表决来进行预测。该推测意味着DPA和FA都是(渐近)最优的——如果我们拥有最数据有效的学习器,则它们可以将其转化为抵御数据毒化的最强防御之一。这概述了一种通过寻找数据有效的学习器来开发更强大的防御措施的实用方法。作为概念证明,我们经验证明,仅通过使用不同的数据增强技术来训练基础学习器,我们可以在不损失准确性的情况下,分别将DPA在CIFAR-10和GTSRB上的认证鲁棒性提高一倍和三倍。

论文链接:https://proceedings.neurips.cc/paper_files/paper/2022/file/0badcb4e95306df76a719409155e46e8-Paper-Conference.pdf

4dda01c477f39ffa049200572008e92c.png

45、MORA: Improving Ensemble Robustness Evaluation with Model Reweighing Attack

yunrui yu, Xitong Gao, Cheng-Zhong Xu

对抗性攻击通过向神经网络的输入数据添加微小扰动来欺骗神经网络。集成防御是一种有前途的研究方向,它通过训练最小化子模型之间攻击可转移性的方法来提高对这种攻击的强韧性,同时在自然输入上保持高精度。我们发现,然而,最近的最先进的对抗性攻击策略不能可靠地评估集成防御,明显高估了它们的强韧性。本文确定了两个因素对这种行为的贡献。首先,这些防御形成的集合对现有的基于梯度的方法具有明显的攻击难度,因为梯度模糊。其次,集成防御使子模型梯度多样化,提出了一种挑战,即要同时打败所有子模型,简单地对它们的贡献求和可能会抵消总体攻击目标;然而,我们观察到即使大多数子模型是正确的,集成仍然可能被愚弄。因此,我们引入了MORA,一种模型重新加权攻击,通过重新加权子模型梯度的重要性来引导对抗性示例合成。MORA 发现最近的集成防御都展示了不同程度的高估强韧性。与最近的最先进的白盒攻击相比,MORA 可以在所有被考虑的集成模型上实现更高的攻击成功率,同时收敛速度快几个数量级。特别是,大多数集成防御在 CIFAR-10 上的 $\ell^\infty$ 扰动为 $0.02$,在 CIFAR-100 上为 $0.01$ 时,对 MORA 几乎没有或恰好为 $0\%$ 的鲁棒性。我们开源 MORA 并提供可重现的结果和预先训练的模型,还提供了各种攻击策略下的集成防御排行榜。

论文链接:https://proceedings.neurips.cc/paper_files/paper/2022/file/ac895e51849bfc99ae25e054fd4c2eda-Paper-Conference.pdf

d9955708b026d1a47034558c54981df7.png

46、Marksman Backdoor: Backdoor Attacks with Arbitrary Target Class

Khoa D Doan, Yingjie Lao, Ping Li

近年来,机器学习模型已经被证明容易受到后门攻击的影响。在这些攻击下,攻击者将一个隐蔽的后门嵌入到经过训练的模型中,以使受损的模型在干净的输入下能够正常运行,但在具有触发器的恶意构造输入下,会根据攻击者对恶意构造的输入的控制而进行误分类。尽管这些现有的攻击非常有效,但攻击者的能力是有限的:对于一个输入,这些攻击只能导致模型偏离预定义或目标类别的单一方向。相反,本文利用一种更强大的有效负载的新型后门攻击,称为Marksman,其中攻击者可以任意选择模型将在推断期间对哪个目标类别进行误分类。为了实现这个目标,我们提出将触发函数表示为一个类别条件生成模型,并将后门注入到一个约束优化框架中,其中触发函数学习生成一个最优触发模式以攻击任何目标类别,同时将这个生成式的后门嵌入到训练好的模型中。在学习到的触发生成函数的基础上,在推断期间,攻击者可以指定任意后门攻击目标类别,并相应地创建一个适当的触发器,使模型分类为这个目标类别。我们通过实验证明,所提出的框架在多个基准数据集(包括 MNIST、CIFAR10、GTSRB 和 TinyImageNet)中实现了高攻击性能(例如在几个实验中达到了 100% 的攻击成功率),同时保持了干净数据的性能。所提出的Marksman后门攻击也可以轻松地规避原本设计用来对抗单一目标类别后门攻击的现有防御措施。我们的工作是对实际环境中后门攻击的广泛风险进行了又一重要步骤。

论文链接:https://proceedings.neurips.cc/paper_files/paper/2022/file/fa0126bb7ebad258bf4ffdbbac2dd787-Paper-Conference.pdf

6575eb705faf9d83668f778939865a0d.png

47、Measuring Data Reconstruction Defenses in Collaborative Inference Systems

Mengda Yang, Ziang Li, Juan Wang, Hongxin Hu, Ao Ren, Xiaoyang Xu, Wenzhe Yi

协作推理系统旨在加快边缘云场景中的预测过程,其中本地设备和云系统共同运行复杂的深度学习模型。然而,这些边缘云协作推理系统容易受到新兴的重建攻击的攻击,其中恶意云服务提供商能够恢复边缘用户的私有数据。为了防御此类攻击,近期引入了几种防御措施。不幸的是,我们对这些防御措施的鲁棒性知之甚少。在本文中,我们首先采取了措施来测量这些最先进防御措施针对重建攻击的鲁棒性。具体而言,我们展示了潜在的隐私特征仍然保留在混淆表示中。在这样的观察下,我们设计了一种称为敏感特征蒸馏(SFD)的技术,以从受保护的特征表示中恢复敏感信息。我们的实验表明,SFD可以突破模型划分场景中的防御机制,展示了现有防御机制作为隐私保护技术在重建攻击方面的不足之处。我们希望我们的发现能激发进一步的工作,以提高防御机制针对协作推理系统的重建攻击的鲁棒性。

论文链接:https://proceedings.neurips.cc/paper_files/paper/2022/file/53f1c3ec5df814b5aabe9ae88a29bb49-Paper-Conference.pdf

05ada74eae30b362f3840799e4782a0e.png

48、Multilingual Abusive Comment Detection at Scale for Indic Languages

Vikram Gupta, Sumegh Roychowdhury, Mithun Das, Somnath Banerjee, Punyajoy Saha, Binny Mathew, hastagiri prakash vanchinathan, Animesh Mukherjee

社交媒体平台最初被构想为在线城镇广场,人们可以在这里聚集,分享信息并和平地相互沟通。然而,由于恶意行为产生的有害内容不断困扰着这些平台,逐渐将它们转化为“摔跤场”,在这里,恶意行为者可以自由地滥用各种边缘化群体。因此,准确和及时地检测社交媒体平台上的虐待内容对于促进用户之间的安全互动非常重要。然而,由于印度虐待言论数据集的规模较小且语言覆盖范围稀疏,开发适用于印度社交媒体用户(全球人口的六分之一)的算法受到严重制约。为了促进和鼓励在这个重要方向的研究,我们首次贡献了MACD——一个大规模(150K)、人工注释的、多语言(5种语言)、平衡(49%的虐待内容)和多样化(70K用户)的滥用检测数据集,这些用户评论来自于一个流行的社交媒体平台——ShareChat。我们还发布了AbuseXLMR,一种在15种以上的印度语言的大量社交媒体评论上预训练的滥用内容检测模型,它在多个印度语数据集上优于XLM-R和MuRIL。除了注释,我们还发布了评论、帖子和用户ID之间的映射,以便建模它们之间的关系。我们分享了具有竞争力的单语、跨语言和少样本基线,以便将MACD用作未来研究的数据集基准。

论文链接:https://proceedings.neurips.cc/paper_files/paper/2022/file/a7c4163b33286261b24c72fd3d1707c9-Paper-Datasets_and_Benchmarks.pdf

8b278642fffdd7748601f28160af2a4f.png

49、NS3: Neuro-symbolic Semantic Code Search

Shushan Arakelyan, Anna Hakhverdyan, Miltiadis Allamanis, Luis Garcia, Christophe Hauser, Xiang Ren

语义代码搜索是根据其功能的文本描述检索代码片段的任务。最近的工作集中在使用文本和代码的神经嵌入之间的相似性度量。然而,目前的语言模型被认为在处理更长、更复杂的句子和多步推理时存在困难。为了克服这个局限性,我们建议使用查询句子的语义结构布局来补充。语义布局用于将最终推理决策分解为一系列较低级别的决策。我们使用神经模块网络架构来实现这个想法。我们将我们的模型——NS3(神经符号语义搜索)与许多基线进行比较,包括最先进的语义代码检索方法,如CodeBERT、CuBERT和GraphCodeBERT,并在两个数据集——代码搜索网(CSN)和代码搜索和问答(CoSQA)上进行评估。在这些数据集上,我们证明了我们的方法能够得到更高的性能。我们还进行了其他研究,以展示我们的模块化设计在处理组合查询时的有效性。

论文链接:https://proceedings.neurips.cc/paper_files/paper/2022/file/43f5f6c5cb333115914c8448b8506411-Paper-Conference.pdf

289a201ea8a664c5ef62ee6ab1abb61c.png

50、Natural Color Fool: Towards Boosting Black-box Unrestricted Attacks

Shengming Yuan, Qilong Zhang, Lianli Gao, Yaya Cheng, Jingkuan Song

不受限制的色彩攻击可以操纵图像的语义色彩,已经证明了它们在欺骗人类眼睛和深度神经网络方面的隐蔽性和成功性。然而,目前的研究通常为了确保对抗性样本的自然性而牺牲了不受控制的设置的灵活性。因此,这些方法的黑盒攻击性能受到了限制。为了提高对抗性样本的可转移性,同时又不损害图像质量,我们提出了一种新颖的自然色彩欺骗(NCF)方法,该方法受到了从公开可用数据集中采样的真实色彩分布的引导,并通过我们的邻域搜索和初始化重置进行了优化。通过进行广泛的实验和可视化,我们令人信服地证明了我们提出方法的有效性。值得注意的是,平均结果显示,我们的NCF可以在愚弄通常训练的模型方面比现有最先进的方法提高15.0%∼32.9%,在回避防御方法方面可以提高10.0%∼25.3%。我们的代码可在https://github.com/VL-Group/Natural-Color-Fool上获得。

论文链接:https://proceedings.neurips.cc/paper_files/paper/2022/file/31d0d59fe946684bb228e9c8e887e176-Paper-Conference.pdf

c5305c1d122138f3d1fd7a29a3c6b8fd.png

51、Pile of Law: Learning Responsible Data Filtering from the Law and a 256GB Open-Source Legal Dataset

Peter Henderson, Mark Krass, Lucia Zheng, Neel Guha, Christopher D Manning, Dan Jurafsky, Daniel Ho

大型语言模型的崛起引发了一个关注点,即它们在预训练时使用偏见、淫秽、版权和私人信息可能会造成重大危害。新兴的伦理方法试图过滤预训练材料,但这些方法是临时的,并未考虑到上下文。我们提出了一种基于法律的过滤方法,直接解决了过滤材料的权衡问题。首先,我们收集并提供法律资料库,即一个~256GB(且不断增长)的数据集,包括法院判决、合同、行政规定和立法记录等英语开源法律和行政数据。在法律资料库上进行预训练有助于解决提高司法机构的问题。其次,我们提炼政府为限制有毒或私人内容而制定的法律规范为可行的研究方法,并讨论了我们的数据集如何反映这些规范。第三,我们展示了如何通过法律资料库让研究人员直接从数据中学习这些过滤规则,并为模型处理提供了一个令人激动的新的研究方向。

论文链接:https://proceedings.neurips.cc/paper_files/paper/2022/file/bc218a0c656e49d4b086975a9c785f47-Paper-Datasets_and_Benchmarks.pdf

1225828a3d2c167596e0e54e68d028b5.png

52、Practical Adversarial Attacks on Spatiotemporal Traffic Forecasting Models

Fan LIU, Hao Liu, Wenzhao Jiang

基于机器学习的交通预测模型利用复杂的时空自相关性来提供城市交通状态的准确预测。然而,现有的方法假定存在可靠且无偏的预测环境,但在实际情况中并非总是如此。在这项工作中,我们研究了时空交通预测模型的脆弱性,并提出了一个实用的对抗性时空攻击框架。具体而言,我们提出了一种迭代梯度引导节点显著性方法来识别时变的受害节点集合,而不是同时攻击所有地理分布的数据源。此外,我们设计了一种基于时空梯度下降的方案,在扰动约束下生成真实值的对抗性交通状态。同时,我们在理论上证明了对抗性交通预测攻击的最差性能界限。在两个真实世界数据集上的大量实验表明,所提出的两步框架可以在各种先进的时空预测模型上实现高达67.8%的性能降级。值得注意的是,我们还表明,使用我们提出的攻击进行对抗性训练可以显著提高时空交通预测模型的鲁棒性。

论文链接:https://proceedings.neurips.cc/paper_files/paper/2022/file/79081c95482707d2db390542614e29cd-Paper-Conference.pdf

4dbb508d72b4d43e79db4f762135e7ca.png

53、Pre-activation Distributions Expose Backdoor Neurons

Runkai Zheng, Rongjun Tang, Jianze Li, Li Liu

卷积神经网络(CNN)可以在遇到特定触发模式时被操纵以执行特定行为,而不影响正常样本的性能,这被称为后门攻击。后门攻击通常通过将少量的污染样本注入到训练集中来实现,通过这种方式受害者训练出嵌入指定后门的模型。在这项工作中,我们证明了后门神经元通过它们的预激活分布暴露出来,其中良性数据和污染数据的人口显示出显着不同的时刻。这种属性被证明是攻击不变的,并允许我们有效地定位后门神经元。在此基础上,我们对神经元激活分布做出了几个适当的假设,并提出了两种基于(1)神经元的差分熵和(2)良性样本分布和基于污染统计的假设分布之间的Kullback-Leibler散度的后门神经元检测策略。实验结果表明,我们提出的防御策略对各种后门攻击既高效又有效。

论文链接:https://proceedings.neurips.cc/paper_files/paper/2022/file/76917808731dae9e6d62c2a7a6afb542-Paper-Conference.pdf

fb92417ee7054e00ce7a416c11ef69dc.png

54、Pre-trained Adversarial Perturbations

Yuanhao Ban, Yinpeng Dong

近年来,自监督预训练因在微调后的众多下游任务上表现出色而受到越来越多的关注。然而,众所周知,深度学习模型缺乏对抗性样本的鲁棒性,这可能会引发预训练模型的安全问题,尽管这方面的研究相对较少。在本文中,我们通过引入预训练对抗扰动(PAP),探讨了预训练模型的鲁棒性,这些扰动是为了攻击微调模型而制定的通用扰动,而不需要任何有关下游任务的知识。为此,我们提出了一种低层级神经元激活提升攻击(L4A)方法,通过提升预训练模型的低层级神经元激活来生成有效的PAP。配备增强的噪声增强策略,L4A能够有效地生成更具可传递性的PAP以攻击微调模型。在典型的预训练视觉模型和十个下游任务上进行的广泛实验表明,我们的方法相比于最先进的方法,提高了攻击成功率。

论文链接:https://proceedings.neurips.cc/paper_files/paper/2022/file/084727e8abf90a8365b940036329cb6f-Paper-Conference.pdf

e9a98271ecd638a5e123c9c758200040.png

55、Private Multiparty Perception for Navigation

Hui Lu, Mia Chiquier, Carl Vondrick

我们提出了一个框架,通过将多个摄像头连接在一起,同时保护隐私,来导航杂乱环境。大型环境中的遮挡和障碍通常是导航智能体的挑战性情况,因为从单个摄像头视角下环境并不完全可见。鉴于环境的多个摄像头视角,我们的方法学习生成多视角场景表示,只能用于导航,并可证明防止任何一方从输出任务之外推断到其他信息。在我们将公开发布的新导航数据集上,实验表明,私人多方表示允许通过复杂场景和障碍物进行导航,同时保护隐私。我们的方法可扩展到任意数量的摄像头视角。我们相信,开发保护隐私的视觉表示对于许多应用程序,如导航,越来越重要。

论文链接:https://proceedings.neurips.cc/paper_files/paper/2022/file/15ddb1773510075ef44981cdb204330b-Paper-Conference.pdf

bf4d504b82a60087e150947ac5329d78.png

56、Private Set Generation with Discriminative Information

Dingfan Chen, Raouf Kerkouche, Mario Fritz

差分隐私数据生成技术已成为数据隐私挑战的一种有前途的解决方案。它使得数据共享能够符合严格的隐私保证,这对于敏感领域的科学进展至关重要。不幸的是,由于建模高维分布的内在复杂性的限制,现有的私有生成模型在合成样本的效用方面存在困难。与现有的旨在拟合完整数据分布的方法不同,我们直接优化代表分布的一小组样本,这通常是一个更容易的任务,也更适合私有训练。此外,我们利用下游任务的判别信息进一步简化训练。我们的工作提供了一个差分隐私高维数据生成的替代视角,并引入了一种简单而有效的方法,极大地提高了现有方法的样本效用。

论文链接:https://proceedings.neurips.cc/paper_files/paper/2022/file/5e1a87dbb7e954b8d9d6c91f6db771eb-Paper-Conference.pdf

f48ad42beae4023e44bc758379a498f8.png

57、Private Synthetic Data for Multitask Learning and Marginal Queries

Giuseppe Vietri, Cedric Archambeau, Sergul Aydore, William Brown, Michael Kearns, Aaron Roth, Ankit Siva, Shuai Tang, Steven Z. Wu

我们提供了一种差分隐私算法,可同时为多个任务生成合成数据:边际查询和多任务机器学习(ML)。我们算法中的一个关键创新是能够直接处理数值特征,与许多相关先前方法不同,这些方法需要先通过分箱策略将数值特征转换为{高基数}分类特征。要获得更好的准确性需要更高的分箱粒度,但这对可扩展性产生了负面影响。消除了分箱的需求,使我们能够生成保留大量统计查询(例如数值特征上的边际和类条件线性阈值查询)的合成数据。保留后者意味着每个类标签的点数在某个半空间上方大致相同,这是在多任务设置中训练线性分类器所需的属性。我们的算法还允许我们为混合边际查询生成高质量的合成数据,这些查询组合了分类和数值特征。我们的方法始终比最佳可比技术运行2-5倍更快,并且在混合类型数据集的边际查询和线性预测任务中提供了显着的准确性提高。

论文链接:https://proceedings.neurips.cc/paper_files/paper/2022/file/7428310c0f97f1c6bb2ef1be99c1ec2a-Paper-Conference.pdf

0cf9557d0ea54b43aaafe6e3b66fd33a.png

58、Private and Communication-Efficient Algorithms for Entropy Estimation

Gecia Bravo-Hermsdorff, Róbert Busa-Fekete, Mohammad Ghavamzadeh, Andres Munoz Medina, Umar Syed

现代统计估计通常在分布式环境中进行,其中每个样本属于单个用户,用户与中央服务器共享其数据。用户通常关心保护其样本的隐私,并尽量减少他们必须传输给服务器的数据量。我们提供了改进的私有和通信高效算法,用于估计分布熵的几个常见度量。我们所有的算法都具有恒定的通信成本,并满足本地差分隐私。对于许多变量的联合分布,其条件独立图是一棵树,我们描述了用于估计Shannon熵的算法,其样本数与变量数成线性关系,相比之前的工作,其样本复杂度是二次的。我们还描述了一种用于估计Gini熵的算法,其样本复杂度不依赖于分布的支持大小,并且可以使用用户和服务器之间的单轮并发通信来实现,而以前已知的最佳算法具有高通信成本,并需要服务器促进用户之间的互动。最后,我们描述了一种用于估计碰撞熵的算法,它匹配了已知最佳算法的空间和样本复杂度,但将其推广到了私有和通信高效的环境中。

论文链接:https://proceedings.neurips.cc/paper_files/paper/2022/file/62e5721247075dd097023d077d8e22f7-Paper-Conference.pdf

1ce88a35d11c81809eb49fa11f13d7de.png

59、Probing Classifiers are Unreliable for Concept Removal and Detection

Abhinav Kumar, Chenhao Tan, Amit Sharma

文本数据训练的神经网络模型已被发现在其表示中编码了不良语言或敏感概念。由于概念、文本输入和学习表示之间存在复杂的关系,因此去除这些概念并不是易如反掌的。最近的研究提出了事后和对抗性的方法来从模型的表示中去除这些不需要的概念。通过广泛的理论和实证分析,我们表明这些方法可能是适得其反的:它们无法完全去除这些概念,并且在最坏的情况下可能会破坏所有与任务相关的特征。原因是这些方法依赖于一个探测分类器作为概念的代理。即使在表示空间中概念的相关特征可以提供100%的准确度的最有利条件下学习探测分类器,我们证明了探测分类器很可能使用非概念特征,因此事后或对抗性方法将无法正确地去除概念。这些理论影响在针对公平性等概念去除的敏感应用中得到了实验证实。我们建议慎重使用这些方法,并提出一个虚假指标来衡量最终分类器的质量。

论文链接:https://proceedings.neurips.cc/paper_files/paper/2022/file/725f5e8036cc08adeba4a7c3bcbc6f2c-Paper-Conference.pdf

1802f0a89eb012410ebd1786b9e3910d.png

60、Provable Defense against Backdoor Policies in Reinforcement Learning

Shubham Bharti, Xuezhou Zhang, Adish Singla, Jerry Zhu

我们提出了一种可证明的防御机制,针对强化学习中的后门策略,在子空间触发假设下。 后门策略是一种安全威胁,其中对手发布了一个看似表现良好的策略,实际上允许隐藏触发器。在部署过程中,对手可以以特定的方式修改观察到的状态,以触发意外的行动并伤害代理。我们假设代理没有资源重新训练一个良好的策略。相反,我们的防御机制通过从与干净(非触发)环境进行少量交互中估计的“安全子空间”将观察到的状态进行投影,从而对后门策略进行了消毒。在触发器存在的情况下,我们的消毒策略可以实现ε近似最优性,前提是干净交互的数量为O(D(1-γ)4ε2),其中γ是折扣因子,D是状态空间的维度。在实证上,我们展示了我们的消毒防御在两个Atari游戏环境中表现良好。

论文链接:https://proceedings.neurips.cc/paper_files/paper/2022/file/5e67e6a814526079ad8505bf6d926fb6-Paper-Conference.pdf

023800a3d1c14ca095dc9d9d55d25575.png

61、Public Wisdom Matters! Discourse-Aware Hyperbolic Fourier Co-Attention for Social Text Classification

Karish Grover, S M Phaneendra Angara, Md Shad Akhtar, Tanmoy Chakraborty

社交媒体已成为各种形式的交流的支点。对社交文本进行分类,如虚假新闻、谣言、讽刺等,已引起了极大的关注。社交文本本身表达的表面信号可能不足以完成这些任务;因此,最近的方法试图将其他内在信号(如用户行为和底层图形结构)纳入其中。通常,通过对社交文本的评论/回复表达的公众智慧充当了众包视角的替代品,可能为我们提供了补充信号。社交文本分类的最新方法往往忽略了这种丰富的分层信号。在这里,我们提出了Hyphen,一种意识到话语的超球谱共同关注网络。Hyphen是超球图表示学习与新颖的傅里叶共同关注机制的融合,旨在通过纳入公共话语来推广社交文本分类任务。我们将公共话语解析为抽象意义表示(AMR)图,并使用强大的超球几何表示来对具有分层结构的图形进行建模。最后,我们装备它与一种新颖的傅里叶共同关注机制,以捕捉源帖子与公共话语之间的相关性。对于四个不同的社交文本分类任务(即检测虚假新闻、仇恨言论、谣言和讽刺),广泛的实验表明Hyphen具有很好的概括性,并在十个基准数据集上取得了最先进的结果。我们还使用基于句子的事实检查和注释数据集来评估Hyphen如何产生类似于最终预测的证据解释。

论文链接:https://proceedings.neurips.cc/paper_files/paper/2022/file/3d57795f0e263aa69577f1bbceade46b-Paper-Conference.pdf

0746b83a31244aaf0fa79baf49066142.png

62、QUARK: Controllable Text Generation with Reinforced Unlearning

Ximing Lu, Sean Welleck, Jack Hessel, Liwei Jiang, Lianhui Qin, Peter West, Prithviraj Ammanabrolu, Yejin Choi

大规模语言模型经常学习与用户期望不一致的行为。生成的文本可能包含冒犯或有毒的语言,包含大量的重复,或者情感与用户期望不同。我们考虑通过对不良行为的信号进行微调,来解除这些不一致性。我们介绍了Quantized Reward Konditioning(Quark)算法,这是一种优化奖励函数的算法,可以量化(不)想要的属性,同时不会偏离原始模型太远。Quark在以下三个步骤之间交替进行:(i)使用当前语言模型收集样本,(ii)根据奖励对它们进行量化排序,每个量化区间都由一个奖励令牌放置在语言模型的输入前面进行识别,(iii)对每个量化区间的样本进行标准语言模型损失的条件化,同时通过KL散度惩罚保持接近原始语言模型。通过在生成时以高奖励令牌为条件,模型生成的文本将表现出更少的不良属性。对于解除有毒性、负面情感和重复性,我们的实验表明,Quark优于强基线和最先进的强化学习方法,同时仅依赖于标准的语言建模基元。

论文链接:https://proceedings.neurips.cc/paper_files/paper/2022/file/b125999bde7e80910cbdbd323087df8f-Paper-Conference.pdf

1b8aa9a71d77e3bc0dcc3849870f1af8.png

63、Random Normalization Aggregation for Adversarial Defense

Minjing Dong, Xinghao Chen, Yunhe Wang, Chang Xu

深度神经网络的漏洞已在各种模型和任务中广泛发现,即使是对输入的轻微扰动也可能导致错误的预测。这些扰动的输入被称为对抗性示例,其中一个有趣的属性是对抗性转移性,即对抗性示例欺骗其他模型的能力。传统上,这种可转移性总是被认为是对抗性攻击防御的重要威胁,然而,我们认为从新的角度利用对抗性转移性可以显著提高网络的鲁棒性。在这项工作中,我们首先讨论了不同流行的规范化层对对抗性转移性的影响,然后提供了经验证据和理论分析,以阐明规范化类型与转移性之间的关系。基于我们的理论分析,我们提出了一个简单而有效的模块,称为随机规范化聚合(RNA),它替换了网络中的批量规范化层,并聚合不同的选择规范化类型以形成一个巨大的随机空间。具体而言,在每个推理过程中随机选择一条路径,以使网络本身可以被视为各种不同模型的集合。由于整个随机空间都是设计成具有低对抗性转移性,即使网络参数是可访问的,也难以进行有效的攻击。我们在各种模型和数据集上进行了大量实验,并展示了所提出算法的强大优越性。PyTorch代码可在https://github.com/UniSerj/Random-Norm-Aggregation上找到,MindSpore代码可在https://gitee.com/mindspore/models/tree/master/research/cv/RNA上找到。

论文链接:https://proceedings.neurips.cc/paper_files/paper/2022/file/da3d4d2e9b37f78ec3e7d0428c9b819a-Paper-Conference.pdf

7e0d6f9bcb4532d4fa197e1297477251.png

64、Rethinking and Improving Robustness of Convolutional Neural Networks: a Shapley Value-based Approach in Frequency Domain

Yiting Chen, Qibing Ren, Junchi Yan

对抗性样本的存在引发了对卷积神经网络(CNN)鲁棒性的担忧,其中一个流行的假设是关于频率偏差现象:CNN在分类时更依赖于高频组件(HFC)而不是人类,这导致了CNN的脆弱性。然而,大多数之前的工作都是手动选择和粗略分割图像频谱,并进行定性分析。在这项工作中,我们引入了Shapley值,一种合作博弈理论的度量方法,进入频率域,并提出了对数据中每个频率分量对CNN的正(负)影响进行量化的方法。基于Shapley值,我们以细粒度的方式量化影响,并展示了有趣的实例差异。统计上,我们研究了对抗训练(AT)和对抗攻击在频率域中的情况。观察结果激发了我们进行深入分析,并得出了多个新的假设,包括:i) AT模型对抗性鲁棒性的原因;ii) AT在同一数据集中不同类别之间的公平性问题;iii) 不同频率分量的攻击偏差。最后,我们提出了一种基于Shapley值指导的数据增强技术,用于提高CNN的鲁棒性。图像分类基准测试的实验结果表明了它的有效性。

论文链接:https://proceedings.neurips.cc/paper_files/paper/2022/file/022abe84083d235f7572ca5cba24c51c-Paper-Conference.pdf

7a84a0cd2268860d7aad38046c8a4669.png

65、Rethinking the Reverse-engineering of Trojan Triggers

Zhenting Wang, Kai Mei, Hailun Ding, Juan Zhai, Shiqing Ma

深度神经网络容易受到木马(或后门)攻击。逆向工程方法可以重建触发器,从而识别受影响的模型。现有的逆向工程方法仅考虑输入空间的限制,例如输入空间中的触发器大小。特别地,它们假设触发器是静态的输入空间中的模式,并无法检测到具有特征空间触发器的模型,例如图像样式变换。我们观察到,输入空间和特征空间的木马都与特征空间超平面相关。基于这个观察结果,我们设计了一种新的逆向工程方法,利用特征空间约束来逆向工程木马触发器。在四个数据集和七种不同的攻击上的结果表明,我们的解决方案有效地防御了输入空间和特征空间的木马。它在检测和减轻木马模型方面优于现有的逆向工程方法和其他类型的防御措施。平均而言,我们的方法的检测准确率为93%。对于木马缓解,我们的方法可以将攻击成功率降低到仅为0.26%,而良性准确率几乎不变。我们的代码可以在https://github.com/RU-System-Software-and-Security/FeatureRE找到。

论文链接:https://proceedings.neurips.cc/paper_files/paper/2022/file/3f9bf45ea04c98ad7cb857f951f499e2-Paper-Conference.pdf

698585aad7af99a8b036f6d308dd7ac2.png

66、Revisiting Injective Attacks on Recommender Systems

Haoyang LI, Shimin DI, Lei  Chen

最近的研究表明,推荐系统(RecSys)容易受到注入攻击的影响。攻击者可以在开放平台上注入行为设计精良的虚假用户,推荐系统会因此向更多真实用户推荐目标物品从而获利。在本文中,我们首先重新审视现有的攻击者,并揭示他们存在着难度不可知和多样性不足的问题。现有的攻击者将注意力集中在那些对目标物品倾向较低的难以攻击的用户上,从而降低了攻击的效果。此外,他们无法通过占主导地位的大型社区生成的虚假用户行为以多样化的方式影响目标RecSys向真实用户推荐目标物品。为了缓解这两个问题,我们提出了一个难度和多样性感知的攻击者,即DADA。我们设计了难度感知和多样性感知的目标,使得来自不同社区的易攻击用户在优化攻击者时能够贡献更多的权重。通过结合这两个目标,所提出的攻击者DADA可以集中攻击易攻击用户,同时还可以影响更广泛的真实用户,从而提高攻击的效果。在三个真实数据集上进行的大量实验表明了我们所提出的攻击者的有效性。

论文链接:https://proceedings.neurips.cc/paper_files/paper/2022/file/c1bb0e3b062f0a443f2cc8a4ec4bb30d-Paper-Conference.pdf

ad66933970c95db914dd22841ce2f38a.png

67、Robust Feature-Level Adversaries are Interpretability Tools

Stephen Casper, Max Nadeau, Dylan Hadfield-Menell, Gabriel Kreiman

计算机视觉中对抗攻击的文献通常集中在像素级扰动上。这些扰动往往很难解释。最近的研究通过操纵图像生成器的潜在表示来创建“特征级”对抗扰动,为我们提供了探索可感知、可解释的对抗攻击的机会。我们做出了三个贡献。首先,我们观察到特征级攻击为研究模型中的表示提供了有用的输入类别。其次,我们展示了这些对手是独特多才且高度强大的。我们证明它们可以用于在ImageNet规模上生成有针对性的、通用的、伪装的、实际可行的和黑盒攻击。第三,我们展示了如何将这些对抗性图像用作识别网络中的漏洞的实用可解释性工具。我们使用这些对手来预测特征和类之间的虚假关联,然后通过设计“复制/粘贴”攻击来测试这些预测,从而导致有针对性的误分类。我们的结果表明,特征级攻击是深入解释性研究的一种有前途的方法。它们支持设计工具以更好地理解模型学到了什么,并诊断脆弱的特征关联。代码可在https://github.com/thestephencasper/featureleveladv获得。

论文链接:https://proceedings.neurips.cc/paper_files/paper/2022/file/d616a353c711f11c722e3f28d2d9e956-Paper-Conference.pdf

1f41060812ef45f6cda48db67cf2aa7b.png

68、SALSA: Attacking Lattice Cryptography with Transformers

Emily Wenger, Mingjie Chen, Francois Charton, Kristin E. Lauter

目前部署的公钥加密系统将会面临全规模量子计算机的攻击。因此,“抗量子”加密系统需求量较高,基于一个被称为“学习误差”的难题的基于格的加密系统已成为标准化的有力竞争者。在这项工作中,我们训练变形金刚执行模数算术和混合半训练模型和统计密码分析技术来提出SALSA:一种基于LWE加密方案的机器学习攻击。 SALSA可以完全恢复小到中型LWE实例的稀疏二进制秘密,可能扩展到攻击实际的LWE加密系统。

论文链接:https://proceedings.neurips.cc/paper_files/paper/2022/file/e28b3369186459f57c94a9ec9137fac9-Paper-Conference.pdf

ab8a86c04796821719faf948d236cb69.png

69、Sleeper Agent: Scalable Hidden Trigger Backdoors for Neural Networks Trained from Scratch

Hossein Souri, Liam Fowl, Rama Chellappa, Micah Goldblum, Tom Goldstein

随着机器学习数据的筛选变得越来越自动化,数据集篡改成为了一个越来越严重的威胁。后门攻击者会篡改训练数据,以在使用该数据进行训练的模型中嵌入漏洞。然后,在推理时通过将“触发器”放入模型的输入来激活此漏洞。典型的后门攻击将触发器直接插入训练数据中,尽管这种攻击的存在可能在检查时可见。相比之下,隐藏触发器后门攻击可以实现毒化而无需直接在训练数据中放置触发器。然而,这种隐藏触发器攻击无法对从头开始训练的神经网络进行毒化。我们开发了一种新的隐藏触发器攻击,Sleeper Agent,它在制作过程中采用了梯度匹配、数据选择和目标模型重新训练。Sleeper Agent是第一种对从头开始训练的神经网络有效的隐藏触发器后门攻击。我们在ImageNet和黑盒设置中展示了其有效性。我们的实现代码可以在以下网址找到:https://github.com/hsouri/Sleeper-Agent。

论文链接:https://proceedings.neurips.cc/paper_files/paper/2022/file/79eec295a3cd5785e18c61383e7c996b-Paper-Conference.pdf

07d3516bb51923f960ff9048a0df50bf.png

70、The Privacy Onion Effect: Memorization is Relative

Nicholas Carlini, Matthew Jagielski, Chiyuan Zhang, Nicolas Papernot, Andreas Terzis, Florian Tramer

机器学习模型在私有数据集上训练时已被证明会泄露私有数据。最近的研究发现,平均数据点很少泄露,通常是异常样本受到了记忆和泄露的影响。我们展示和分析了记忆的洋葱效应:移除最容易受到隐私攻击的离群点"层"会暴露出一个新的层次,其中以前安全的点会受到同样的攻击。我们进行了几个实验,这些实验与这个假设一致。例如,我们表明对于成员推断攻击,当最容易攻击的层被移除时,下面的另一层变得容易受到攻击。这个效应的存在有各种各样的后果。例如,它表明,没有进行严格隐私保护的训练的防止记忆的提议不太可能有效。此外,它表明,诸如机器取消学习之类的增强隐私的技术实际上可能会损害其他用户的隐私。

论文链接:https://proceedings.neurips.cc/paper_files/paper/2022/file/564b5f8289ba846ebc498417e834c253-Paper-Conference.pdf

c84295d12b6984ed0a70d7dcb76fed97.png

71、Toward Efficient Robust Training against Union of $\ell_p$ Threat Models

Gaurang Sriramanan, Maharshi Gor, Soheil Feizi

深度神经网络对精心制作的扰动攻击(称为对抗攻击)的极度脆弱性,已经导致了各种训练技术的开发,以产生强健的模型。虽然现有方法的主要重点是针对单一威胁模型下达到最坏情况的性能进行处理,但是保证安全关键系统在多个威胁模型下都具有强健性至关重要。针对这些威胁模型的最坏情况性能的现有方法($\ell_{\infty}$,$\ell_2$,$\ell_1$的并集)要么利用需要多步攻击的对抗训练方法,这在实践中计算成本很高,要么依赖于对于单一威胁模型具有强健性的预训练模型的微调。在这项工作中,我们展示了通过精心选择用于强健性训练的目标函数,可以在仅使用单步攻击的情况下实现类似或改进的最坏情况性能,从而实现训练所需的计算资源显著减少。此外,之前的工作表明,针对$\ell_1$威胁模型的对抗训练相对较困难,以至于即使是多步对抗训练的模型也容易受到梯度掩蔽的影响。然而,当专门应用于$\ell_1$威胁模型时,所提出的方法使我们能够仅利用单步对手获得第一个$\ell_1$强健模型。最后,为了展示我们方法的优点,我们利用现代一组攻击评估来更好地估计在考虑的威胁模型的并集下的最坏情况性能。

论文链接:https://proceedings.neurips.cc/paper_files/paper/2022/file/a627b9468c319c13a70b7c2fb8df65a3-Paper-Conference.pdf

5fc0df177bd44f511ae19732b2a463a3.png

72、Towards Lightweight Black-Box Attack Against Deep Neural Networks

Chenghao Sun, Yonggang Zhang, Wan Chaoqun, Qizhou Wang, Ya Li, Tongliang Liu, Bo Han, Xinmei Tian

黑盒攻击可以生成对目标模型参数没有访问权限的对抗样本,从而大大加剧了部署的深度神经网络(DNN)的威胁。然而,以前的研究表明,在训练数据和输出不可访问的情况下,黑盒攻击无法误导目标模型。在这项工作中,我们认为在仅有几个测试样本可用的极度限制的情况下,黑盒攻击可以构成实际攻击。具体而言,我们发现攻击少量测试样本上训练的DNN的浅层可以生成强大的对抗样本。由于只需要少量样本,我们将这些攻击称为轻量级黑盒攻击。推广轻量级攻击的主要挑战是缓解浅层逼近误差造成的不利影响。由于只有少量可用的样本,难以缓解逼近误差,因此我们提出了Error TransFormer(ETF)来进行轻量级攻击。即,ETF将参数空间中的逼近误差转化为特征空间中的扰动,并通过扰动特征来减轻误差。在实验中,使用所提出的ETF进行轻量级黑盒攻击取得了令人惊讶的结果。例如,即使每个类别仅有1个样本可用,轻量级黑盒攻击的攻击成功率也仅比完整训练数据的黑盒攻击低约3%。

论文链接:https://proceedings.neurips.cc/paper_files/paper/2022/file/7a9745f251508a053425a256490b0665-Paper-Conference.pdf

522f7e2266233c43e5ed66c77704e7d0.png

73、Training with More Confidence: Mitigating Injected and Natural Backdoors During Training

Zhenting Wang, Hailun Ding, Juan Zhai, Shiqing Ma

后门或特洛伊攻击对深度神经网络(DNNs)构成了严重威胁。研究人员发现,即使在良性数据和设置上训练的DNNs也可以学习到后门行为,这被称为自然后门。现有的反后门学习工作是基于弱观察,即在训练期间后门和良性行为可以区分。一个具有慢性毒害的自适应攻击可以绕过这种防御。此外,这些方法不能防御自然后门。我们发现后门相关神经元和良性神经元之间存在根本的差异:后门相关神经元在所有受影响标签的输入域上形成一个超平面作为分类面。通过进一步分析训练过程和模型架构,我们发现分段线性函数导致了这个超平面表面。在本文中,我们设计了一种新的训练方法,强制训练避免生成这样的超平面,从而消除注入的后门。我们在五个数据集上进行了广泛的实验,对抗了五种最先进的攻击和良性训练,结果表明我们的方法可以胜过现有的最先进防御措施。平均而言,使用NONE训练的模型在标准毒害后门攻击下的ASR(攻击成功率)比未受保护的模型低54.83倍,在自然后门攻击下比未受保护的模型低1.75倍。我们的代码可在https://github.com/RU-System-Software-and-Security/NONE上获得。

论文链接:https://proceedings.neurips.cc/paper_files/paper/2022/file/ec0c9ca85b4ea49c7ebfb503cf55f2ae-Paper-Conference.pdf

00443151d34a9e8c6041f6f6769fb033.png

74、Trap and Replace: Defending Backdoor Attacks by Trapping Them into an Easy-to-Replace Subnetwork

Haotao Wang, Junyuan Hong, Aston Zhang, Jiayu Zhou, Zhangyang Wang

深度神经网络(DNN)易受后门攻击的影响。以前的研究表明,从网络中消除不良后门行为极具挑战性,因为整个网络都可能受到后门样本的影响。在本文中,我们提出了一种全新的后门防御策略,使得从模型中消除后门样本的有害影响变得更加容易。我们的防御策略“诱骗和替换”由两个阶段组成。在第一阶段,我们在一个小而易于替换的子网络中诱骗和捕获后门。具体而言,我们在与轻量级分类头共享的干部网络之上添加了一个辅助图像重建头。这个头的作用是鼓励干部网络保留足够的低级别视觉特征,这些特征难以学习但语义上正确,而不是过度拟合到易于学习但语义上不正确的后门相关性。因此,在被后门数据集训练时,后门很容易被诱骗进入不受保护的分类头,因为它比共享的干部更容易受到攻击,留下的干部网络几乎不会受到污染。在第二阶段中,我们使用仅包含干净样本的小型保留数据集从头重新训练未受污染的轻量级分类头,同时固定干部网络,以替换受污染的轻量级分类头。因此,最终网络中的干部和分类头都几乎不受后门训练样本的影响。我们对我们的方法进行了十种不同的后门攻击评估。我们的方法在CIFAR10、GTSRB和ImageNet-12上的干净分类精度上,比以前的最先进方法分别高出$3.14\%$、$1.80\%$和$1.21\%$,攻击成功率上高达$20.57\%$、$9.80\%$和$13.72\%$。代码可在https://github.com/VITA-Group/Trap-and-Replace-Backdoor-Defense获得。

论文链接:https://proceedings.neurips.cc/paper_files/paper/2022/file/ea06e6e9e80f1c3d382317fff67041ac-Paper-Conference.pdf

f9935a437172a162161079f1a9983e97.png

75、TwiBot-22: Towards Graph-Based Twitter Bot Detection

Shangbin Feng, Zhaoxuan Tan, Herun Wan, Ningnan Wang, Zilong Chen, Binchi Zhang, Qinghua Zheng, Wenqian Zhang, Zhenyu Lei, Shujie Yang, Xinshun Feng, Qingyue Zhang, Hongrui Wang, Yuhan Liu, Yuyang Bai, Heng Wang, Zijian Cai, Yanbo Wang, Lijing Zheng, Zihan Ma, Jundong Li, Minnan Luo

Twitter机器人检测已成为打击错误信息、促进社交媒体管理和保护在线话语完整性的越来越重要的任务。最先进的机器人检测方法通常利用Twitter网络的图形结构,并且在面对传统方法无法检测到的新型Twitter机器人时表现出有希望的性能。然而,现有的Twitter机器人检测数据集中非常少数是基于图形的,即使这些少数基于图形的数据集也存在数据集规模有限、图形结构不完整以及注释质量低的问题。事实上,缺乏一个大规模基于图形的Twitter机器人检测基准来解决这些问题已经严重阻碍了新型基于图形的机器人检测方法的发展和评估。在本文中,我们提出了TwiBot-22,这是一种全面的基于图形的Twitter机器人检测基准,它提供了迄今为止最大的数据集,在Twitter网络上提供了多样化的实体和关系,并且比现有数据集具有更好的注释质量。此外,我们重新实现了35个代表性的Twitter机器人检测基线,并在包括TwiBot-22在内的9个数据集上进行了评估,以促进模型性能的公正比较和全面的研究进展的理解。为了促进进一步的研究,我们将所有实现的代码和数据集整合到TwiBot-22评估框架中,研究人员可以在其中一致地评估新模型和数据集。TwiBot-22 Twitter机器人检测基准和评估框架可在\url{https://twibot22.github.io/}上公开获取。

论文链接:https://proceedings.neurips.cc/paper_files/paper/2022/file/e4fd610b1d77699a02df07ae97de992a-Paper-Datasets_and_Benchmarks.pdf

20127fe769f9d900a84baa66f26c6a93.png

76、VoiceBlock: Privacy through Real-Time Adversarial Attacks with Audio-to-Audio Models

Patrick O'Reilly, Andreas Bugler, Keshav Bhandari, Max Morrison, Bryan Pardo

随着政府和企业采用深度学习系统来收集和分析用户生成的音频数据,对安全和隐私的担忧自然而然地出现在诸如自动说话人识别之类的领域。虽然音频对抗样本为误导或逃避这些侵入性系统提供了一条途径,但它们通常是通过耗时的离线优化来制作的,限制了它们在流媒体环境中的实用性。受到音频去噪和语音增强等音频到音频任务的架构的启发,我们提出了一种神经网络模型,能够实时对用户的音频流进行对抗性修改。我们的模型学习将时变有限冲激响应(FIR)滤波器应用于发出的音频,从而允许在适合流媒体任务的小固定延迟上进行有效和不引人注目的扰动。我们证明了我们的模型在从说话人识别中去除用户语音方面非常有效,并能够转移到未见过的识别系统。我们进行了感知研究,发现我们的方法在控制有效性的同时,产生的扰动比基线匿名化方法明显不易察觉。最后,我们提供了一个能够在单个CPU线程上实时运行的模型实现。音频示例和代码可在https://interactiveaudiolab.github.io/project/voiceblock.html找到。

论文链接:https://proceedings.neurips.cc/paper_files/paper/2022/file/c204d12afa0175285e5aac65188808b4-Paper-Conference.pdf

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/Gausst松鼠会/article/detail/602608
推荐阅读
相关标签
  

闽ICP备14008679号