赞
踩
传统的防御方法不能区分对抗性例子(AE)和正常例子(NE)。因此,它们对两个示例应用相同的防御过程来执行分类,导致网元的性能下降。在本文中,我们提出了一种新的基于学生-教师框架的防御方法,该方法可以通过检测网络环境并将防御过程仅应用于网络环境来最小化网络环境的分类性能降级。针对教师网络(目标DNN)隐含层特征失真是敌意攻击成功的必然性这一事实,训练学生网络预测教师网络未失真的隐含层特征。因此,我们的方法可以通过学生网络和教师网络之间隐藏层特征的差异来检测AE,然后使用学生网络预测的倒数第二层特征恢复AE的分类结果。
检测是一种反应性方法,可以通过检测对抗性示例 (AE) 来过滤错误分类的结果。 各种研究发现,与正常示例(NE)相比,AE 的隐藏层特征具有异常分布
然而,这些方法无法确定输入是否是AE。 因此,他们不知道当前是否存在对抗性攻击的威胁,并且相同的防御过程应用于NE和AE,导致NE的分类性能下降。 在对抗性训练的情况下,AE 的鲁棒性和 NE 的分类准确性之间需要权衡 [29]。 对抗性净化还会降低 NE 的分类准确性,因为它甚至在不存在对抗性扰动的 NE 上也执行净化。 在现实场景中,防御者注意到当前是否存在对抗性攻击的威胁也至关重要。 此外,由于 AE 通常不如 NE 出现,因此 NE 的分类性能下降对于实用性来说是致命的。
为了解决这个问题,我们提出了一种基于学生-教师框架的方法,可以检测和防御 AE。 我们的方法可以通过首先确定输入是否为 AE,然后仅对确定为 AE 的输入应用防御技术来恢复正确的分类结果,从而最大限度地减少 NE 的分类性能下降。 在我们的方法中,教师网络是分类器,学生网络是经过训练以预
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。