当前位置:   article > 正文

BadDet: Backdoor Attacks on Object Detection——面向目标检测的后门攻击_attack object detection

attack object detection

BadDet: Backdoor Attacks on Object Detection

摘要

提出了针对目标检测任务的四种后门攻击算法和一种后门防御方法。并证明了微调不能移除后门。

1 介绍

  • 对目标检测任务的后门攻击比图像分类任务的后门攻击更具挑战性:

    • 目标检测要求模型不仅要分类,还要定位一幅图像中的多个对象,因此被攻击的模型需要学习到 trigger 与多个对象之间的关系,而不仅仅是与单幅图之间的关系
    • 目标检测模型如:Faster-RCNN、YOLOv3等由多个子模块组成,比图像分类模型更复杂
  • 针对目标检测任务,需要评估生成的边界框是否与 ground-truth 对象准确定位,因此需要提出新的度量来评估后门攻击的效果

  • 提出了 BadDet——目标检测的后门攻击,考虑如下四种设置:

在这里插入图片描述

  • Object Generation Attack (OGA): 在一个 trigger 附近生成一个目标类的对象

  • Regional Mis-classification Attack (RMA): 将一个 trigger 附近的对象类更改为目标类

  • Global Misclassification Attack (GMA): 一个 trigger 将图像中的所有对象的类更改为目标类

  • Object Disappearance Attack (ODA): 将一个 trigger 附近的目标类的对象消失

  • 使用 mAP 和 AP 评估指标

  • 为了防御 BadDet 以确保目标检测模型的安全性,提出了 Detector Cleanse 防御方法

2 相关工作

  • 目标检测: 模型可以分为两类
    • 两步检测器: 先找到感兴趣的区域再分类,如 Faster-RCNN
    • 一步检测器: 直接预测所属类的概率和边界框坐标

3 背景

  • 目标检测中的符号

    • x 是图像

在这里插入图片描述

  • oi 是图像中的对象

在这里插入图片描述

在这里插入图片描述

ci 是目标 oi 的类别,(ai,1, bi,1) 和 (ai,2, bi,2) 是目标 oi 的左上角和右下角
  • 1
  • **IoU: **衡量预测框和真实框的重合程度

在这里插入图片描述

  • AP: 利用不同的 Precision 和 Recall 的点的组合,画出来的曲线下面的面积

  • mAP: 各类别 AP 的平均值

4 方法论

4.1 后门攻击设置
  • OGA(目标生成攻击): 向图像中加入一个 trigger,左上角坐标为(a,b)。并向图像的目标标签中添加一项:

在这里插入图片描述

Wt 和 Ht 为所加 trigger 的宽和高,Wb 和 Hb 为 trigger bbox 的宽和高

  • RMA(局部错误分类攻击): 对于不属于目标类的 bbox oi,将 trigger 插入到其左上角,改变相应类为目标类,但不改变其 bbox oi 的坐标

  • GMA(全局错误分类攻击): 将 trigger 插入到整幅图的左上角,并将 y 中所有目标类的分类改为 t

  • ODA(目标消失攻击): 将 trigger 插入到图像中目标类 bbox 的左上角,将其目标类标签从 y 中移除

5 实验

  • 取得了不错的结果

在这里插入图片描述

  • fine-tune(微调)后后门仍然有效果

在这里插入图片描述

  • 对中毒率 P、trigger 的大小、trigger 比率 α(公式中的参数)、不同语义 trigger、目标类别 t 和 trigger 的位置进行了消融研究

在这里插入图片描述

  • 中毒率 P 对所有设置下的 ASR 和其他指标都会产生很强烈的影响
  • 更大的 trigger size 对 OGA 和 ODA 会有更好的表现
  • α 对 OGA、RMA、GMA 的其他指标有轻微影响
  • 不同语义的 trigger 对各结果基本一样
  • 目标类别 t 换成数据集中目标更少的类别时,ODA 会有较差的结果,其他没影响
  • trigger 的位置不会影响攻击效果(随机在 bbox/image 中取,而不用在左上角 )

6 Detector Cleanse(防御方法)

目前大多数后门防御/检测的方法都是针对图像分类问题,且其适用的模型是一个简单的神经网络,而目标检测模型较复杂。此外,目标检测模型的输出和图像分类模型不同。因此,原先的方法都不适用。

  • 提出了 Detector Cleanse 方法,一个针对目标检测器的运行时有毒图像检测框架。

    • 它假设用户只有几个干净的特征(可以从不同的数据集中提取)
    • 关键思想是,小的 trigger 的特征(feature)具有单一(强)输入不可知模式。即使在预测的 bbox 中的一个小区域上应用了强扰动,中毒的检测器仍会按照攻击者在目标类上指定的方式运行。这种行为是反常的,因此可以检测后门攻击。
    • 具体做法是,定义两个超参数:检测平均值 m 和检测阈值 Δ。从干净的 VOC2007(也可以是不同数据集) ground-truth bboxes 中提取100个特征(feature),对于图像 x 上的每个预测的 bbox b,将特征与 x 上的所选 bbox 区域线性混合以生成 100 个扰动 bbox,计算这些 bbox 的平均熵。如果其没有落在 [m − ∆, m + ∆] 内,则将图像标记为中毒,并返回 bbox 的坐标以识别 trigger 的位置。
    • FAR 是中毒图像上所有 bbox 的熵都落入区间 [m − ∆, m + ∆] 的可能性;FRR 是干净图像上至少一个 bbox 的熵在区间 [m − ∆, m + ∆] 外的可能性。

在这里插入图片描述

原文链接:https://arxiv.org/pdf/2205.14497.pdf

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/喵喵爱编程/article/detail/883997
推荐阅读
相关标签
  

闽ICP备14008679号