赞
踩
提出了针对目标检测任务的四种后门攻击算法和一种后门防御方法。并证明了微调不能移除后门。
对目标检测任务的后门攻击比图像分类任务的后门攻击更具挑战性:
针对目标检测任务,需要评估生成的边界框是否与 ground-truth 对象准确定位,因此需要提出新的度量来评估后门攻击的效果
提出了 BadDet——目标检测的后门攻击,考虑如下四种设置:
Object Generation Attack (OGA): 在一个 trigger 附近生成一个目标类的对象
Regional Mis-classification Attack (RMA): 将一个 trigger 附近的对象类更改为目标类
Global Misclassification Attack (GMA): 一个 trigger 将图像中的所有对象的类更改为目标类
Object Disappearance Attack (ODA): 将一个 trigger 附近的目标类的对象消失
使用 mAP 和 AP 评估指标
为了防御 BadDet 以确保目标检测模型的安全性,提出了 Detector Cleanse 防御方法
目标检测中的符号
ci 是目标 oi 的类别,(ai,1, bi,1) 和 (ai,2, bi,2) 是目标 oi 的左上角和右下角
AP: 利用不同的 Precision 和 Recall 的点的组合,画出来的曲线下面的面积
mAP: 各类别 AP 的平均值
Wt 和 Ht 为所加 trigger 的宽和高,Wb 和 Hb 为 trigger bbox 的宽和高
RMA(局部错误分类攻击): 对于不属于目标类的 bbox oi,将 trigger 插入到其左上角,改变相应类为目标类,但不改变其 bbox oi 的坐标
GMA(全局错误分类攻击): 将 trigger 插入到整幅图的左上角,并将 y 中所有目标类的分类改为 t
ODA(目标消失攻击): 将 trigger 插入到图像中目标类 bbox 的左上角,将其目标类标签从 y 中移除
目前大多数后门防御/检测的方法都是针对图像分类问题,且其适用的模型是一个简单的神经网络,而目标检测模型较复杂。此外,目标检测模型的输出和图像分类模型不同。因此,原先的方法都不适用。
提出了 Detector Cleanse 方法,一个针对目标检测器的运行时有毒图像检测框架。
原文链接:https://arxiv.org/pdf/2205.14497.pdf
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。