学习笔记——Neural Cleanse——Identifying and Mitigating Backdoor Attacks in Neural Networks_neural cleanse: identifying and mitigating backdoo

作者：喵喵爱编程 | 2024-07-26 06:46:18

踩

neural cleanse: identifying and mitigating backdoor attacks in neural networ

神经网络清理 - 识别和减轻神经网络中的后门攻击

背景：深度神经网络（DNN）缺乏透明度（即在训练时无法观察到内部），故易受到后门的攻击，隐藏的关联和触发器会覆盖正常的分类。

针对此问题，本文提出了第一个稳健的、通用的DNN后门攻击检测和缓解系统。

技术：识别后门并且重建可能的触发点。通过输入过滤器、神经元剪枝和忘却学习来识别多种缓解技术。

（在安全领域，DNN被用于恶意软件分类、二进制逆向工程、网络入侵检测）

本质上讲，dnn是数字黑匣子，不适合人类理解。许多人认为神经网络对可解释性和透明性的需求是当今计算中最大的挑战之一[6]，[7]。尽管有着强烈的兴趣和集体的努力，我们只看到在定义[8]、框架[9]、可视化[10]和有限的实验[11]方面进展有限。

简单地说，后门是被训练成dnn模型的隐藏模式，它会产生意想不到的行为，但是除非被一些“触发器”输入激活，否则是无法检测到的。

主要内容：描述了深度神经网络中后门攻击防御。

过程：给定一个经过训练的DNN模型，确定是否有一个触发器在添加输入时会产生错误的分类，该触发器是什么样的，以及如何减轻（即从模型中删除它）。

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/喵喵爱编程/article/detail/884006