当前位置:   article > 正文

一种基于Swin Transformer的雾天场景车辆检测新方法_基于transformer的雾天场景交通视频目标检测算法研究

基于transformer的雾天场景交通视频目标检测算法研究

摘要

在恶劣天气条件下,智能车辆对环境的准确感知能力是智慧城市、无人驾驶等诸多实际应用中的重要研究内容。为了改进真实雾霾场景下的车辆环境感知技术,提出了一种有效的基于Swin Transformer的雾霾车辆检测算法。该算法包括两个方面。首先,针对能见度较差的雾霾特征提取困难的问题,设计了一种除雾网络,通过Swin Transformer块的编码和解码方式,获得高质量的无雾输出。此外,针对雾蒙蒙图像下车辆检测困难的问题,将除雾模块与Swin Transformer检测模块融合,构建了雾蒙蒙天气下新的端到端车辆检测模型。在训练阶段,使用自制数据集haze - car,通过迁移学习,使用除雾模型和swun - t对雾霾检测模型参数进行初始化。最后,通过微调得到最终的雾霾检测模型。通过对去雾和目标检测的联合学习,并在自制的真实雾霾图像数据集上进行对比实验,可以看出该模型在真实场景中的检测性能提高了12.5%。

1. Introduction

随着先进驾驶辅助系统(ADAS)和自动驾驶系统的成熟,车辆感知解决方案的范围也变得多样化。无人驾驶的检测性能主要由传感器负责,最常用的是摄像头,采集可见光图像用于感知环境。然而,在恶劣的天气条件下,如雾霾场景下,相机拍摄的室外图像通常会受到动态目标、大气悬浮小颗粒或水滴的影响,导致模糊、遮挡、光照异常等导致色彩失真和纹理模糊[1]。图像的退化使人眼和传统的计算机视觉系统无法更准确地捕捉和感知物体的特征,从而难以将感兴趣的区域从背景杂波中分离出来。严重影响了车辆对交通信息的准确感知,增加了交通事故的发生率。因此,如何在雾霾条件下有效提取车辆特征,实现更准确的车辆感知具有重要意义。

近年来,随着深度学习的发展,基于cnn的物体检测方法在智能车辆环境感知方面取得了突破性进展。通过确定物体的类别和位置,帮助车辆在复杂的驾驶环境中实现安全驾驶。然而,现有的大多数目标检测算法研究都是针对简单、干净环境中的目标进行的,这样的模型在现有的目标检测数据集上已经取得了很好的效果[2-9]。对于雾霾场景,现有的基于cnn的检测框架存在两个问题。一方面,由于卷积的固有性质,共享卷积核使得图像各区域的性质容易被忽略,局部归纳偏置原理也使得卷积依赖于远程的构造失效。另一方面,为了提高检测性能,一般采用两级解决方案;首先对图像进行去雾处理,提高图像质量,然后对图像进行检测。然而,这种去雾模型不能完全恢复潜在的清晰图像,并且作为一种预处理手段,它不能始终提高目标检测的性能,并且这种两阶段模型不能满足智能车辆驾驶的实时性要求。

本文提出了一种有效的雾霾车辆端到端检测模型,解决了能见度差的雾霾天气下车辆检测问题。为了实现这一目标,采用了目前最好的目标检测器之一Swin Transformer[10]作为骨干网。在此基础上,提出了一种模糊图像特征恢复模块,该模块通过Transformer分层构建和多阶段处理提取多尺度特征。构建一个能够增强图像清晰度的恢复子网,并对其进行端到端训练,同时学习增强可视性、目标分类和定位。通过该方案,可以从输入的模糊图像中恢复出清晰的特征,从而在恶劣天气下实现更准确的车辆检测。

我们提出的方法的主要特点总结如下:

1.模糊图像的低质量给特征提取带来困难。为了解决这一问题,本文提出了一种基于注意机制的除雾模型。首先通过编解码模块提取图像的全局语义特征,然后通过图像重建模块生成高质量的无雾图像。生成无雾图像的目的不是作为检测子网的输入,而是通过学习可见性增强任务来生成干净的特征。

2.为了解决用于车辆检测的雾霾数据集太少的问题,本文收集并标注了雾霾- car数据集用于模型训练。使用真实雾霾场景的Real Haze-100数据集对模型进行测试。

3.将除雾模块与Swin变压器检测模块融合,形成新的端到端雾霾检测模型。去雾模块负责从模糊图像中提取干净的特征,检测模块负责对目标进行分类和定位。在训练阶段,利用模糊模型和swing - t通过迁移学习对模糊检测模型参数进行初始化。最后,通过微调得到最终的模糊检测模型。

4.将本文提出的算法与YOlO、SSD、Faster-RCNN、EfficientDet、Swin Transformer等前沿目标检测算法进行比较。实验表明,本文提出的模型具有一定的实时性,检测精度较高。

2. 相关工作

2.1. Hazy Object Detection

近年来,基于二维图像的深度学习目标检测算法已成为自动驾驶道路目标检测的有力工具。事实上,深度卷积网络在车辆目标检测领域已经取得了惊人的成功[11]。CNN具有很强的图像特征学习能力,可以执行分类、边界盒回归等多个相关任务[12]。现有的方法分为两类:两阶段和一阶段。该方法不生成候选框,而是直接将目标边界框的定位问题转化为回归问题进行处理。典型算法包括You Only Look Once(YOLO)[13]和Single-Shot Multibox Detector (SSD)[14]。两阶段方法通过各种算法生成目标的候选框,然后通过CNN对目标进行分类。典型的算法是基于候选框R-CNN、Fast R-CNN、Faster R-CNN的region-CNN (R-CNN)[4]算法。虽然这些模式在晴朗的天气条件下取得了令人满意的表现,但在没有进行某种调整的情况下,它们都不能有效地工作。

模糊场景中目标检测的总体思路是采用两阶段的方法,即先对图像进行去雾处理,然后再进行目标检测。早期的单幅图像去雾方法一般基于手工先验,如暗通道先验(DCP)[15]、颜色衰减先验(CAP)[16]、雾线先验(HLP)[17]。然而,这些方法只有在先验有效的情况下才能获得良好的结果;否则,它们可能会产生不自然的伪影,从而降低图像质量。因此,将预处理后的图像作为目标检测器的输入,并不一定能保证提高检测性能[18]。近年来,随着深度学习的快速发展,人们提出了许多基于cnn的图像去雾方法。这些方法通常优于基于先验的方法,因为深度网络可以隐式学习图像中雾的相关特征,并克服单个特定先验的局限性[19]。现有的基于深度学习的去雾模型包括Cai等人提出的DehazeNet[20],该模型利用卷积神经网络学习雾霾图像的特征。通过端到端学习和估计模糊图像与其传输图像之间的映射关系。Li等[21]构建AOD-Net神经网络除雾模型,联合优化除雾和检测,吸收DenseNet的特点,利用轻量级CNN直接生成清晰的图像模型,取得了比传统两阶段方法更好的效果。Li等[18]研究了除雾对各种检测器的影响,发现图像除雾作为一种预处理并不是很有帮助,有时甚至会破坏图像特征。主要原因是现有的去雾方法不能很好地重建高质量和清晰的图像,用于后续的高级视觉任务。为了解决这一问题,Zhang等[22]提出了嵌入大气散射模型的端到端优化除雾网络。采用两个生成网络估计传输图和大气光强,并利用边界感知损失函数将两个生成网络融合在一起进行反向传播。

2.2. Vision Transformer

Transformer[23]最早应用于自然语言处理(natural language processing, NLP)领域,近年来在计算机视觉领域得到广泛应用。通常在视觉问题中,CNN被认为是最基本的组成部分[24],但现在Dosovitskiy[25]等人直接将图像分割成块序列,并使用视觉变压器(visual Transformer, ViT)来执行图像分类任务。与基于cnn的算法不同,Transformer能够通过注意机制获取每个图像块之间的语义信息,使其从一开始就获得全局感受野,充分利用上下文语义信息。它对小目标具有更好的识别能力,所需的计算资源也大大减少,在图像和视频视觉任务中,如图像分类[26-29]、目标检测[10,30 - 32]、语义分割[33-35]、人群计数[36,37]等,表现出比CNN更强的性能。

具体而言,Parmar[38]在2018年首次将Transformer应用于图像生成,并提出了image Transformer模型。2020年,Carion等[30]将CNN与Transformer结合,提出了完整的端到端DETR目标检测框架,首次将Transformer应用于目标检测,获得了与CNN相当的并行计算能力。Zhu等[39]提出了一种基于可变卷积神经网络的可变形DETR模型,该模型对小物体具有很好的检测效果。Zheng等[40]提出了一种ACT算法来降低自注意模块的计算复杂度。金字塔视觉变压器(Pyramid Vision Transformer, PVT)[41]将变压器应用于低分辨率特征,大大降低了计算成本。Swin Transformer[10]中提出了局部分组自注意[42],其中输入特征被分离到一个不重叠窗口的网格中,可视化Transformer仅在每个窗口中操作。在ViT中引入电感偏置的方法有很多。LocalViT[26]通过在前馈网络中使用深度卷积,为ViT引入了局部性机制。

这些研究将图像分割成多个图像块,并将这些图像块的线性嵌入序列作为Transformer的输入。然后,以NLP领域的token处理方式对图像patch进行处理,并以监督的方式训练图像分类模型。通过探索不同区域之间的全局交互作用,学会关注图像中的重要区域。

3. Proposed Method

户外交通图像有两个问题。首先,图像质量容易受到恶劣天气的影响。其次,在拍摄图像时,车辆与相机之间的距离变化很大,导致车辆尺寸变化较大。针对上述问题,本节将引入一种新的雾霾车辆检测网络,对图像中的所有车辆目标进行检测。该网络结合了除雾和目标检测两个模块来执行端到端的多任务学习。CNN模型的方法是先提取图像的高级特征,然后通过分类回归得到特定对象的边界框。然而,与训练CNN不同的是,为了充分利用图像上下文信息,提高雾蒙蒙场景下车辆的检测效果,本文探索了一种基于分层视觉Transformer架构的带有窗口移位的鲁棒车辆检测方法。它们的整体架构是基于编码器和解码器的结构。首先,3.1节将介绍Swin Transformer的框架,作为除雾模块和雾霾图像车辆检测的骨干。然后在3.2节中介绍图像去雾模块,增强朦胧图像的可见度。最后,3.3节将介绍基于层次视觉Transformer的特征提取模块如何取代CNN进行目标检测,并提出端到端有效的车辆检测总体框架。

3.1. Swin Transformer

Swin Transformer的工作原理是首先深度合并图像块,然后将Transformer块中的标准多头自注意(MSA)模块替换为基于移位窗口的模块,该模块的计算复杂度低于ViT。图1a显示了串联连接的两个连续Swin变压器模块的原理图。与传统的MSA模块不同,如图1b所示,W-MSA和SW-MSA是多头自注意模块,分别具有规则和移位的窗口配置。在第n层,采用规则的窗口划分方案,在每个窗口内计算自注意。此窗口分区机制的目的是提供相邻窗口之间的信息连接。通过引入局部思想,每层只对局部关系进行建模,同时不断减小特征图的宽度和高度,从而扩大接受域,保持非重叠窗口的高效计算。

本工作采用微型版Swin Transformer (Swin- t)[10]作为默认主干,并采用移位窗分区方法。连续的Transformer块计算为:

其中,分别为多头注意机制W-MSA (SW-MSA)和MLP的输出特征结果;W-MSA和SW-MSA分别使用常规和移位的窗口分区配置表示基于窗口的多头自注意。

图1所示。(a)两个连续的Swin Transformer模块;(b) W-MSA和SW-MS

3.2. Dehazing Network

如图2所示,去雾网络的输入是一幅模糊图像,首先通过密集块提取浅特征,然后发送给Swin Transformer块架构。特别是,每个Swin Transformer块后面都有一个卷积,以降低空间分辨率并使通道数量增加一倍。这个操作导致归纳偏置被引入变压器编码器。该解码器通过与同级编码器的特征相连接,可以有效缓解因降低尺度而造成的空间信息丢失。最后,将特征转移到重建部分,以获得高质量的无雾输出。

图2。除雾网络的结构。(a)整个除雾网络,由编码器和解码器组成。(b)密集块结构。

除雾网络包括用于提取多尺度特征的编码器E和用于生成具有增强可视性的无雾图像的解码器D。如图二所示,编码器和解码器被描述为:

 

式中表示特征提取层,用于提取浅层特征表示输入的模糊图像,表示编码器的不同阶段,表示编码器E的第n阶段,表示第n阶段的深层特征。解码器D预测无雾图像的多尺度特征,最终生成高质量的无雾图像;表示解码器D的第n级表示解码器D在第n阶段的多尺度特征。为图像重构层[43]。将图像的浅层特征与解码器恢复的特征连接起来作为其输入。最终无雾图像通过图像重建层生成。

均方误差(MSE)、L2损耗和平滑L1损耗是单幅图像去雾中最广泛使用的损耗函数。然而,它们是基于像素的差异,没有考虑到人类的视觉感知,所以即使在后期,图像上仍然存在大量的噪声。因此,对于无雾图像估计,在训练中使用收敛速度更快的结构相似指数度量(SSIM)损失。SSIM是从亮度、对比度、结构三个方面衡量图像相似度的指标。平均值被用作亮度的估计,标准差被用作对比度的估计,协方差被用作结构相似性的度量。从图像构成的角度来看,SSIM将结构信息定义为独立于亮度和对比度之外反映场景中物体结构的属性,将失真建模为亮度、对比度和结构三个不同因素的组合。SSIM取值范围为[0,1]。该值越大,图像失真越小,越相似。因此,使用SSIM损失函数定义为:

式中为清晰的ground truth图像,表示去雾后的图像。在这里加上常数1以确保损失值非负。

3.3. 体系结构概述

所提议的网络的整体架构如图3所示。该方法通过联合学习增强可见性和目标定位两个任务来实现,分别对应两个子网:(1)检测子网和(2)去雾子网。除雾子网采用编码器和解码器的方法。编码器负责提取深度特征,解码器负责生成清晰特征,然后利用重构模块获得干净的无雾图像。该检测子网基于Swin Transformer块,可以对局部和全局依赖关系进行建模,计算成本低于普通Transformer块(ViT)。它与除雾子网共享一个公共块(CB)模块,负责对象分类。模型结构如图3所示。两个子网共用CB模块,以保证在联合学习过程中,CB模块生成的特征可以在两个子网中使用。检测子网可以用来对整个网络进行端到端训练,并对目标进行预测。通过联合优化方案,可以共享除雾子网络从模糊图像中生成的清晰特征,从而更好地学习检测子网络中的车辆检测,提高雾蒙蒙场景下的车辆检测性能。

Swin Transformer编码器的工作流程是通过patch partition将输入图像H × W × 3划分为一组不重叠的patch,其中每个patch的大小为4 × 4,特征维数为4 × 4 × 3,数量为H/4 × W/4。然后,通过线性嵌入将分割后的patch的特征维数改为4 × 4 × C后,发送到多个Swin Transformer块中,实现全局多尺度特征学习。然后,使用多个补丁合并层构建层次化特征图。最后发送到回归头进行对象定位和回归。

图3。我们方法的架构。该框架由两个子网组成:除雾网络和检测网络

在训练阶段,使用ImageNet上预训练的可视化Transformer编码器进行特征提取,维度参数C设置为96,Transformer块数n设置为6。Cascade Mask R-CNN回归模块包括一个分类器hx和一个回归器fx,其中Lcls和Lloc为分类和定位损失,在每个训练阶段t,对IoU阈值进行优化,得到优化后的级联损失,描述为:

其中的ground truth box,λ = 1是权衡系数,[·]为索引函数。是标签,而且串级损失保证了检测器的有效训练对位置的检测效果不断提高。在推理中,通过同样的级联过程,假设的质量也会依次提高,从而提高检测效果。在标签预测中,通过IoU指标来解决目标与背景的区分问题。如果它高于阈值u,则图像块x负责对象的预测。假设x的类别标号是u的函数,则根据u进行推论:

式中为ground truth位置标签, g是真实的分类。回归器的任务是使用回归器f(x, b)将候选框b返回到实际对象框g的位置。一个方框包含(bx, by, bw, bh)的四个坐标,回归量的损失设为:

其中Lloc为L2的损失,xi为网络输入,yi为类别号,N为批大小,i为回归盒的坐标(x, y, w, h)。分类器h(x)将图像块x分配给M + 1个类中的一个。额外的类代表背景类。分类器损失设为:

 

其中Lcls为交叉熵损失,h(x)为类别后验分布的m维估计。

5. Conclusions

提出了一种基于Swin Transformer的端到端车辆检测模型,用于雾霾场景下的车辆检测。首先,利用Swin Transformer模块进行编码和解码,设计了一个除雾网络。然后,将除雾模块和Swin变压器检测模块熔接。然后,采用迁移学习方法训练最终的端到端雾霾车辆检测模型。最后,在自制的数据集上进行对比实验,验证了各个模块和整个框架在真实雾霾场景中的有效性。此外,与Swin Transformer相比,我们的模型具有更高的检测精度,但速度略有降低。在未来,我们将继续研究模型的实时性能。本研究具有一定的理论和现实意义,也可以推广到其他应用领域,如行人检测、军事边界预警等。

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/weixin_40725706/article/detail/175901
推荐阅读
相关标签
  

闽ICP备14008679号