赞
踩
作者 | 汽车人 编辑 | 3D视觉开发者社区
近年来,计算机视觉在智能交通系统(ITS)和自动驾驶(AD)中的应用逐渐转向深度神经网络架构。虽然在基准数据集上的性能似乎有所改善,但在研究中还没有充分考虑到许多现实世界中的挑战。本文对计算机视觉在ITS和AD中的应用进行了广泛的调研,并讨论了与数据、模型和复杂城市环境相关的挑战。数据的挑战与训练数据的收集和标记及其与现实世界条件的相关性、数据集固有的偏向、需要处理的大量数据以及隐私问题有关。深度学习(DL)模型对于嵌入式硬件上的实时处理来说通常过于复杂,缺乏可解释性和可推广性,并且难以在真实环境中进行测试。
虽然在一些文献中提到了这些问题,但只开发了一些方法来解决这些问题。智能交通中的计算机视觉是一个非常活跃的研究领域,本文选择并综述了200多篇论文。
图1概述了应用程序和挑战,以供快速参考,而表1总结了每个应用程序中使用的方法和相关挑战。以下章节(II、III、IV)讨论了数据、模型和复杂交通环境的具体挑战。第五节解释了应对挑战的一些代表性应用和解决方案。第六节是这一领域研究应采取的未来方向,最后,第七节提出了一些结论性意见。
数据通信虽然在大多数ITS和AV计算机视觉研究中没有考虑,但在实际应用中至关重要。在实践中,单个基于相机的深度学习任务通常需要在TMC的相机和云服务器之间进行数据通信。视频数据量很大,这可能导致潜在的数据通信问题,如传输延迟和数据包丢失。在协作摄像机传感环境中,不仅与服务器进行数据通信,而且在不同传感器之间进行数据通信。因此,另外两个问题是多传感器校准和数据同步,协作环境中的校准旨在确定传感器之间的透视转换,以便能够在给定帧合并来自多个视图的采集数据。这项任务在多用户环境中非常具有挑战性,因为传感器之间的变换矩阵随着车辆的移动而不断变化。在协作环境中,校准依赖于背景图像中元素的同步,以确定静态或移动传感器之间的转换。存在多个去同步源,例如时钟之间的偏移或可变通信延迟。虽然时钟可能是同步的,但很难确保在同一时刻触发数据采集,这增加了合并采集数据的不确定性。同样,不同的采样率需要在采集或预测数据之间进行插值,这也增加了不确定性。
交通摄像头广泛部署在道路和车辆上,DOT和城市的TMC不断收集网络范围内的交通摄像头数据,这些数据对各种ITS应用(如事件识别和车辆检测)都很有价值。然而,标记的训练数据远不如未标记的数据常见。随着图形逼真度和模拟物理变得越来越现实,许多应用程序缺少注释数据集的问题正慢慢被合成数据所克服。例如,[9]中的GT 3D信息在单目3D检测和跟踪的训练期间需要高精度,因此使用了视频游戏数据。除了真实的外观,模拟场景不需要手动标记,因为标签已经由模拟生成,并且可以支持各种照明、视点和车辆行为。然而,如果使用合成数据,真实世界的应用仍然需要额外的学习过程,例如领域自适应。低保真度模拟数据用于训练具有域随机化转移学习的真实世界目标检测器。缺乏高质量的碰撞和接近碰撞数据通常被认为是一个实际的限制,更多的碰撞数据将更新AD中的注意力指南,使其能够捕捉长期碰撞特征,从而提高碰撞风险评估。
尽管当前的车辆检测算法在平衡数据集上表现良好,但当面对不平衡数据集时,它们在尾部类别上的性能会下降。在现实世界场景中,数据往往服从Zipfian分布,其中大量尾部类别的样本很少。在长尾数据集中,少数头部类(频繁类)贡献了大部分训练样本,而尾部类(罕见类)的代表性不足。大多数使用此类数据训练的DL模型将长尾训练数据的经验风险降至最低,并且偏向于头部类别,因为它们贡献了大部分训练数据。一些方法,如数据重采样[22]和损失重加权[23],可以补偿不足的类别。然而,他们需要根据类别频率将类别划分为几个组。头尾类之间的这种硬性划分带来了两个问题:相邻类别之间的训练不一致,以及对罕见类别缺乏辨别力。
DL计算机视觉模型在神经网络结构和训练过程方面具有很高的复杂性。许多DL模型设计用于在高性能云中心或AI工作站上运行,而一个好的模型需要数周或数月的训练,以及由GPU或Tensor处理单元(TPU)驱动的高功耗。实时应用程序通常会进行一些修改,如调整视频大小以降低分辨率或模型量化和修剪,这可能会导致性能损失。为了满足效率和精度要求,在许多实际应用中需要降低最先进DL方法的模型复杂性。例如,多尺度可变形注意力已与视觉vit一起用于目标检测,以实现高性能和快速收敛,从而加快训练和推理。
DNN在很大程度上被视为具有多个处理层的黑盒,其工作情况可以使用统计数据进行检查,但学习到的网络内部表示基于数百万或数十亿个参数,使得分析极其困难。这意味着,行为本质上是不可预测的,而且对决策的解释很少,这也使得自动驾驶等关键用例无法进行系统验证。普遍认为,复杂的黑盒是良好性能所必需的,这一假设受到了挑战。最近的研究试图使DNN更易于解释,[41]中介绍了视觉transformer的可视化工具,可用于查看内部机制,如隐藏参数,并深入了解影响预测的输入的特定部分。
对非分布数据的泛化对人类来说是自然的,但对机器来说却具有挑战性,因为大多数学习算法都强烈依赖于测试数据的独立和相同分布假设训练,而这在实践中常常因域转移而被违反。域泛化旨在将模型泛化到新的领域,已经提出了学习可推广和可转移表示的不同方法。大多数现有方法都属于域对齐的范畴,其中的主要思想是最小化源域之间的差异,以学习域不变表示。对源域移位不变的特征也应该对任何未发现的目标域移位都是鲁棒的,数据增强是一种常见的做法,用于规范机器学习模型的训练,以避免过度拟合并提高泛化能力[45],这对于过度参数化的DNN尤为重要。神经网络中的视觉注意力可用于突出决策中涉及的图像区域,并进行因果过滤以找到最相关的部分[46]。[47]中通过使用图像的随机屏蔽版本并比较输出预测来估计单个像素的重要性,这种方法不适用于时空方法或那些考虑复杂环境中对象之间关系的方法!
一般来说,DL方法容易出现不规范,无论模型类型或应用如何,都会出现这种问题。在其它领域中,[48]分析了计算机视觉中的不规范性,特别是针对DL模型,如常用的ResNet-50和缩放转移学习图像分类模型Big transfer(BiT)[49]。研究表明,虽然基准分数随着模型复杂度和训练数据的增加而提高,但使用真实世界的失真进行测试会导致较差且高度变化的性能,这严重依赖于用于初始化训练的随机种子。实际系统需要在各种低成本硬件上实时处理的内存和计算方面高效[50]。一些实现高效和低成本计算的方法包括参数修剪、网络量化、低秩因子分解和模型蒸馏。像[51]这样的方法是有效的,能够实时预测轨迹,但不是端到端的,因为它们假设预先存在目标跟踪系统来估计周围车辆的状态。
行人和骑自行车者等弱势道路使用者(VRU)存在一个独特的问题,因为他们可以非常快速地改变方向和速度,并与车辆不同地与交通环境交互。在ITS中实际部署计算机视觉模型的一些主要障碍是数据源和软件的异质性、传感器硬件故障以及极端或异常传感情况。此外,最近的框架(例如基于边缘计算的框架)直接暴露了具有各种安全实现的大量异构设备的无线通信信号,为恶意行为者创造了不断增加的潜在攻击面。已经开发了深度学习模型来检测这些攻击,但实时应用和在线学习仍然是积极研究的领域。IoV面临着基本的实际问题,这是由于移动车辆将在边缘节点上呈现高度可变的处理要求,而每辆车也可以同时运行许多边缘和云相关的应用程序,以及恶劣的无线通信环境。与自动驾驶汽车边缘计算相关的其它挑战包括协作感知、协作决策和网络安全,攻击者可以使用激光和明亮的红外光干扰相机和激光雷达,改变交通标志,并通过通信信道回放攻击,模型挑战的可视化描述如图3所示!
阴影、恶劣天气、背景和前景之间的相似性、现实世界中的强烈或不足照明等情况被引用为常见问题[59],[60]。众所周知,相机图像的外观受到不利天气条件的影响,如大雾、雨夹雪、暴风雪和沙尘暴[61]。[62]中的一种实时碰撞检测方法使用高斯混合模型进行前景提取,然后使用平均移动算法跟踪车辆。车辆的位置、速度和加速度通过阈值函数来确定碰撞的检测。虽然计算效率很高,但这种方法在噪声、复杂的交通环境和天气变化的情况下会受到严重影响。在恶劣的天气条件下,相机捕捉到的车辆会出现曝光不足、模糊和部分遮挡等问题。同时,出现在交通场景中的雨滴和雪花增加了算法提取车辆目标的难度。在夜间,或在车辆朝着摄像头行驶的隧道中,由于远光眩光,场景可能被完全掩盖。
遮挡是最具挑战性的问题之一,其中由于另一个前景目标的遮挡,目标对象仅部分可用于相机或传感器。遮挡以多种形式存在,从部分遮挡到重度遮挡。在AD中,目标对象可以被建筑物和灯柱等静态对象遮挡,诸如移动车辆或其它道路使用者之类的动态对象可能会彼此遮挡,例如在人群中。遮挡也是物体跟踪中的一个常见问题,因为一旦被跟踪车辆从视野中消失并再次出现,它就被视为不同的车辆,导致跟踪和轨迹信息不准确。
在交通基础设施的应用中,监控摄像机的多样性及其视角对在有限类型的摄像机视图上训练的DL方法提出了挑战。虽然[68]中的算法在计算上是有效的,并且可以在不同的照明条件和交通密度场景下工作,但较低的间距相机视图和道路标记拐角可能会引入显著的错误。[69]中的模型可以识别摄像机附近的异常,包括它们的开始和结束时间,但对于距离中的异常来说并不准确,因为车辆只占几个像素。早期对监控视频异常检测的一项调查得出结论,照明、摄像机角度、异质对象和缺乏真实世界数据集是主要挑战[67]。用于稀疏和密集交通条件的方法是不同的,并且缺乏可推广性。在多视图视觉场景中,匹配不同视图中的对象是另一个主要问题,因为多视图ITS应用程序需要处理不同相机同时捕获的不同图像中的数据[70]。
监控摄像机受天气因素影响。水、灰尘和颗粒物质可能积聚在镜头上,导致图像质量下降。强风会导致相机抖动,导致整个图像的运动模糊。自动驾驶汽车上的前置摄像头也面临这一问题,因为昆虫会砸到玻璃上,导致摄像头视野中的盲点。具体而言,目标检测和分割算法受到极大影响,除非在模型中做好准备,否则错误检测可能会导致AD中的严重安全问题,并错过监视应用中的重要事件。解决这一问题的一些方法包括使用退化图像进行训练、图像恢复预处理和微调预训练网络以从退化图像中学习。例如,[72]中使用了密集的Gram网络,其提高了退化图像中的图像分割性能。
密集的城市交通场景充满了复杂的视觉元素,不仅在数量上,而且在各种不同的车辆及其交互中,如图4所示。汽车、公共汽车、自行车和行人在同一个十字路口的存在是自动导航和轨迹计算的一个重要问题。不同的尺寸、转弯半径、速度和驾驶员行为因这些道路使用者之间的互动而进一步复杂化。从DL的角度来看,很容易找到异构城市交通的视频,但标记地面真相非常耗时。模拟软件通常无法捕捉此类场景的复杂动态,尤其是在密集的城市中心出现的交通规则破坏行为。事实上,[74]中创建了一个特定的数据集来表示这些行为。[75]中创建了一个用于无管制密集交通的模拟器,该模拟器对自动驾驶感知和控制很有用,但不代表真实道路使用者的轨迹和交互。
模型和算法:交通流量变量包括交通量、密度、速度和排队长度。用于检测和跟踪目标以从视频中估计交通流量变量的算法和模型,可分为一阶段和两阶段方法。在一阶段方法中,根据检测结果估计变量,并且没有进一步的分类和位置优化,例如:1) YOLOv3+DeepSORT跟踪器;2) YOLOv2+空间金字塔池化;3) AlexNet+光流+高斯混合模型;4) 基于无人机视频的CNN+光流;5) 基于无人机视频的SSD(单镜头检测)。两阶段方法首先生成包含输入图像中所有潜在目标的区域建议,然后进行分类和位置优化,两阶段方法的例子是:1)Faster R-CNN+SORT跟踪器[81];2) Faster R-CNN[82],[83];3) 基于无人机视频的Faster R-CNN[84],[85]。
当前克服挑战的方法:[86]中提出了ITS边缘的DL方法,该方法在交通监控视频中执行实时车辆检测、跟踪和计数。神经网络通过YOLOv3对象检测方法捕获外观特征,在单帧级别检测单个车辆,该方法部署在边缘设备上,以最小化带宽和功耗。[61]中讨论了一种在恶劣天气条件下实现各种交通环境中准确度和检测速度之间最佳权衡的车辆检测和跟踪方法。此外,还引入了一个名为DAWN的新数据集,用于在大雾、雨、雪和沙尘暴等恶劣天气条件下进行车辆检测和跟踪,以减少训练偏差。
模型和算法:基于计算机视觉的交通拥堵检测方法也可分为单阶段方法和多步骤方法。单阶段方法从视频图像中识别车辆并直接执行交通拥堵检测。
当前克服挑战的方法:使用基于多个传感器的解决方案(包括雷达、激光和传感器融合)可以提高拥塞检测性能,因为在现实场景中使用单个传感器很难实现理想的性能和精度。决策算法广泛用于处理从多个传感器获取的融合数据[93]。利用恶劣天气条件数据集训练的基于CNN的模型可以提高检测性能[94],同时也应用了基于生成对抗网络(GAN)的风格转移方法[95]。这些方法有助于最大限度地减少与可推广性相关的模型挑战,从而提高真实世界的性能。
模型和算法:辅助AD的常见检测任务分为交通标志检测、交通信号检测、道路/车道检测、行人检测和车辆检测。
当前克服挑战的方法:在交通标志检测中,现有的交通标志数据集在挑战条件的类型和严重程度方面受到限制。与这些条件相对应的元数据是不可用的,由于许多条件同时发生变化,因此无法调查单个因素的影响。为了克服这一问题,[126]引入了CURE TSDReal数据集,该数据集基于与真实世界环境相对应的模拟条件。[127]中提出了一种端到端交通标志检测框架特征聚合多路径网络(FAMN)。它由两个主要结构组成,即特征聚合和多路径网络结构,以解决交通标志检测中的小对象检测和细粒度分类问题。[128]中提出了一种用于夜间车辆检测的车辆亮点信息辅助神经网络,其中包括两项创新:基于车辆亮点建立车辆标签层次结构和设计多层融合车辆亮点信息网络。[129]中给出了夜间情况下的实时车辆检测,其中图像包括占据大图像区域的闪光,并且车辆的实际形状没有很好地定义。通过使用全局图像描述符和中央凹分类器网格,可以准确有效地估计车辆位置。AugGAN[95]是用于车辆检测领域自适应的非配对图像到图像转换网络。由于更好的图像对象保存,它在数量上超过了竞争方法,以实现更高的夜间车辆检测精度。[130]中提出了一种逐步域自适应(SDA)检测方法,以通过最小化跨域目标检测任务中的差异来进一步提高CycleGAN的性能。在第一步中,训练一个未配对的图像到图像翻译器,通过将源图像翻译成目标域中的相似图像来构造假目标域。在第二步中,为了进一步最小化跨域的差异,设计了一个自适应的CenterNet,以对抗性学习的方式在特征级别对齐分布。
模型和算法:图像分割包含三个子任务:语义分割、实例分割和全景分割。语义分割是一项精细的预测任务,用相应的对象类标记图像的每个像素,实例分割旨在识别和分割属于每个对象实例的像素,而全景分割统一了语义分割和实例分割,从而为所有像素提供了类标签和实例ID。
当前克服挑战的方法:最近的分割方向包括弱监督语义分割[139]、[140]、领域自适应[141]、[142]、多模态数据融合[143]、[144]和实时语义分割[145]、[146]、[147]。TS Yolo[148]是一个基于CNN的模型,用于在恶劣天气条件下使用数据增强的新样本进行准确的交通检测。使用复制粘贴策略进行数据扩充,并从现有交通标志实例构建了大量新样本。基于YoloV5,MixConv还用于在单个卷积运算中混合不同的内核大小,从而可以捕获具有不同分辨率的模式。从大的输入图像中检测和分类现实生活中的小交通标志是困难的,因为它们相对于较大的目标占用较少的像素。为了解决这一问题,Dense RefineDet[149]应用了单镜头目标检测框架,以保持适当的精度-速度权衡。[127]中提出了一种端到端交通标志检测框架特征聚合多径网络,以解决交通标志检测中的小对象检测和细粒度分类问题。
模型和算法:在互联自主车辆(CAV)中,根据数据类型,可以在三个级别上执行协作感知:早期融合(原始数据)、中间融合(预处理数据)和后期融合(处理数据),其中提取和传输中间神经特征,其中共享检测输出(3D边界盒位置、置信分数),合作感知研究如何利用相邻连接车辆和基础设施的视觉线索来提高整体感知性能[150]!
1) 早期融合:[151]使用原始数据级LiDAR 3D点云融合从连接车辆的不同位置和角度收集的传感器数据,并提出了一种基于点云的3D目标检测方法,以处理对齐点云的多样性。DiscoNet利用知识蒸馏,通过将相应的特征约束到网络中用于早期融合的特征来增强训练。
2) 中间融合:F-Cooper为边缘应用提供了一个新的框架,为自动驾驶车辆提供服务,也为3D融合检测提供了新的策略。[154]提出了一种用于感知和预测的车对车(V2V)方法,该方法传输P&P神经网络的压缩中间表示。[155]提出了一种注意力中间融合pipelines,以更好地捕获网络内连接的代理之间的交互,[150]中提出了一种使用新型vit的具有车辆对一切(V2X)通信的鲁棒协作感知框架。
3) 后期融合:基于Car2X的感知被建模为虚拟传感器,以便将其集成到高级传感器数据融合架构中。
当前克服挑战的方法:
为了减少通信负载和开销,提出了一种用于集体感知中消息生成规则的改进算法[157],该算法通过重组集体感知消息的传输和内容来提高V2X通信的可靠性。[158]提出并评估了一个统一的合作感知框架,该框架包含分散的数据关联和融合过程,该过程可根据参与方差进行扩展。通过采用现有模型以及单个车辆车载传感器视野的简化算法,评估考虑了自组织V2V网络中的通信损失和交通中的随机车辆运动的影响。AICP在[159]中提出,这是第一个解决方案,其重点是通过在网络和应用层进行有效过滤来优化普适合作感知系统的信息性。为了促进系统联网,他们还使用了一个网络协议栈,该协议栈包括专用数据结构和专门用于信息密集型应用的轻量级路由协议!
模型和算法:来自视频的轨迹预测对于自动驾驶、交通预测和拥堵管理非常有用。该领域中较老的工作集中于同质代理,例如高速公路上的汽车或人群中的行人,而异构代理仅在稀疏场景中考虑,具有某些假设,如基于车道的驾驶。
当前克服挑战的方法:[172]中的切换线性动态系统(SLDS)描述了易受伤害道路使用者的动态,并使用从车载立体摄像机提取的特征中提取的上下文扩展了动态贝叶斯网络,重点关注静态和动态线索。该方法可以实时工作,提供道路用户轨迹的准确预测,它可以通过增加交通灯和人行横道等环境来改善。[173]中探讨了机载相机和激光雷达以及V2V通信的使用,以使用随机森林和LSTM架构预测轨迹。YOLO用于检测汽车并提供边界框,而LiDAR提供位置的细微变化,V2V通信传输转向角等原始值,以减少预测的不确定性和延迟。在[174]中,TRAF数据集用于静态或移动相机的鲁棒端到端实时轨迹预测。多车辆跟踪采用Mask R-CNN和互速障碍物算法。如[74]所示,最后3秒的跟踪用于预测接下来5秒的轨迹,具有端到端可训练的额外优势,不需要注释的轨迹数据。本文还提供了TrackNPred,这是一个基于python的库,包含不同轨迹预测方法的实现。它是许多轨迹预测方法的通用接口,可用于在真实世界密集和异构交通数据集上使用标准误差测量度量进行性能比较。大多数用于轨迹预测的DL方法都没有揭示潜在的奖励函数,相反,它们只依赖于以前看到的示例,这阻碍了可推广性并限制了其范围。在[175]中,反向强化学习被用于找到奖励函数,从而可以说该模型有一个具体的目标,允许其部署在任何环境中。[176]中执行基于变换器的运动预测,以在Agroverse数据集中实现最先进的多模态轨迹预测。该网络对道路几何形状和车辆之间的相互作用进行建模。[177]中,通过时空图上的图卷积网络预测复杂城市场景中的行人意图,该方法考虑了等待穿越的行人与车辆运动之间的关系。虽然在多个数据集上实现了80%的准确率,但它可以提前一秒预测跨越的意图。另一方面,将行人建模为机器人,结合SVM而不需要姿势信息,导致更长的预测,但缺乏对上下文信息的考虑[178]。
模型和算法:交通监控摄像头可用于自动检测交通异常,如停车和排队。[68]已使用车辆拐角等低级别图像特征的检测来演示队列检测和队列长度估计,而无需在不同照明条件下进行对象跟踪或背景去除。基于光流的跟踪方法不仅可以提供队列长度,还可以提供速度、车辆数量、等待时间和车头时距。
当前克服挑战的方法:异常检测依赖于监控摄像头,通常可以提供道路远处的视野,但远处的车辆仅占用几个像素,这使得检测变得困难。因此,[182]除了多粒度的box级跟踪之外,还使用像素级跟踪。关键思想是基于帧差的掩模提取和基于高斯混合模型的车辆轨迹跟踪,以消除移动车辆,并结合基于帧变化的分割来消除停车区。异常融合使用具有回溯优化的box和像素级跟踪特征来细化预测。监控摄像机容易在风中抖动,因此在使用Faster R-CNN和级联R-CNN形式的两阶段车辆检测之前,进行了视频稳定预处理[183]。从监控视频中进行异常检测的有效实时方法将外观和运动学习分离为两部分[184]。首先,自动编码器学习外观特征,然后3D卷积层可以使用来自多个过去帧的潜在代码来预测未来帧的特征。预测特征和实际特征之间的显著差异表明异常,该模型可以部署在交通摄像头附近的边缘节点上,与像素方法相比,潜在特征似乎对照明和天气变化具有鲁棒性。为了摆脱对异常注释数据的依赖,[185]中的无监督单类方法应用时空卷积自动编码器来获取潜在特征,将它们堆叠在一起,序列到序列LSTM学习时间模式。该方法在多个真实世界监控录像数据集上表现良好,但并不比监督训练方法更好。其优点是,它可以在正常交通数据上无限期地训练,而没有任何标记的异常。
模型和算法:交通监控摄像头可用于自动检测交通异常,如停车和排队。[68]已使用车辆拐角等低级别图像特征的检测来演示队列检测和队列长度估计,而无需在不同照明条件下进行对象跟踪或背景去除。基于光流的跟踪方法不仅可以提供队列长度,还可以提供速度、车辆数量、等待时间和车头时距。
当前克服挑战的方法:异常检测依赖于监控摄像头,通常可以提供道路远处的视野,但远处的车辆仅占用几个像素,这使得检测变得困难。因此,[182]除了多粒度的box级跟踪之外,还使用像素级跟踪。关键思想是基于帧差的掩模提取和基于高斯混合模型的车辆轨迹跟踪,以消除移动车辆,并结合基于帧变化的分割来消除停车区。异常融合使用具有回溯优化的box和像素级跟踪特征来细化预测。监控摄像机容易在风中抖动,因此在使用Faster R-CNN和级联R-CNN形式的两阶段车辆检测之前,进行了视频稳定预处理[183]。从监控视频中进行异常检测的有效实时方法将外观和运动学习分离为两部分[184]。首先,自动编码器学习外观特征,然后3D卷积层可以使用来自多个过去帧的潜在代码来预测未来帧的特征。预测特征和实际特征之间的显著差异表明异常,该模型可以部署在交通摄像头附近的边缘节点上,与像素方法相比,潜在特征似乎对照明和天气变化具有鲁棒性。为了摆脱对异常注释数据的依赖,[185]中的无监督单类方法应用时空卷积自动编码器来获取潜在特征,将它们堆叠在一起,序列到序列LSTM学习时间模式。该方法在多个真实世界监控录像数据集上表现良好,但并不比监督训练方法更好。其优点是,它可以在正常交通数据上无限期地训练,而没有任何标记的异常。
模型和算法:ITS中的计算机视觉需要高效的基础架构来实时分析数据。如果将所有获取的视频流发送到单个服务器,则所需的带宽和计算将无法提供可用的服务。例如,[193]中探讨了使用视频有用性度量进行实时自动故障检测的边缘计算架构。只有被认为有用的视频才被传输到服务器,而监控摄像机的故障或视线受阻会被自动报告。基于边缘云的计算可以实现DL模型,不仅用于计算机视觉任务,还用于资源分配和效率[194]。被动监控现在已经被文献中越来越多的配备传感器的车辆所取代,这些车辆可以协同执行感知和建图[56]。车辆上的车载计算资源通常不够强大,无法实时处理所有传感器数据,而定位和地图等应用程序可能需要大量计算。
当前克服挑战的方法:大规模DL的一个问题是产生的大量数据无法发送到云计算机进行训练。联合学习[199]已经成为解决这个问题的一种方法,特别是考虑到异构数据源、带宽和隐私问题。训练可以在边缘节点或边缘服务器上执行,结果被发送到云以在共享深度学习模型中聚合[56]。联合学习对单个边缘节点的故障也具有鲁棒性[191],[200]中通过以增量和无监督学习的形式,仅将边缘节点的推断数据传输到云,解决了带宽、数据隐私和功率需求的问题。通常,在边缘处理数据以减少带宽具有匿名传输数据的令人愉快的副作用[201],另一种降低带宽需求的方法是对交通流预测所需的时空特征进行频谱聚类压缩[192]。深度学习模型不能直接导出到移动边缘节点,因为它们通常过于计算密集。[202]中引入了存储和计算方面的神经网络修剪,而[203]中讨论了在硬件上实现生成的稀疏网络,实现了效率的多个数量级提高。[204]中为移动边缘单元开发了一个通用的轻量级CNN模型,该模型与AlexNet和VGG-16相匹配或优于它们,但只占尺寸和计算成本的一小部分。[86]部署了使用深度学习的基于边缘计算的交通流检测,YOLOv3与DeepSORT一起进行了训练和修剪,以部署在边缘设备上实现实时性能。[205]中对在低功耗边缘计算机上部署用于物联网应用的紧凑型DNN进行了全面审查。他们注意到,DNN应用的多样性和数量需要一种超越传统修剪技术的自动模型压缩方法。
虽然大量数据对于训练深度学习模型至关重要,但质量往往是训练性能的限制因素。数据管理是一个必要的过程,以包括边缘案例,并根据来自真实世界的代表性数据训练模型。标记视觉数据,特别是在复杂的城市环境中,是一项由人类完成的劳动密集型任务。可以通过首先使用现有的基于相关任务的对象检测或分割算法来自动标记数据来加快速度。然后可以进一步检查这一点,以消除机器的错误,从而创建一个有用的标记数据集。还需要包括来自不同视图的多个传感器的数据集来训练协作感知算法。由于硬件要求和同步问题,收集此类数据必然具有挑战性,但可以使用与将部署的配置类似的连接车辆和仪表交叉口。像[207]这样的数据驱动模拟器使用高保真数据集来模拟相机和激光雷达,这可以用来训练具有在现实世界中难以捕获的数据的DL模型[208]。这种方法在自动驾驶车辆控制的端到端强化学习中显示了希望[209]。预计领域适应技术将进一步扩展,以利用合成数据和方便收集的数据。
转移学习的子领域,特别是few-shot学习和zero-shot学习,将广泛应用专家知识,以解决缺乏数据的挑战,如ITS和AD中的角案例识别。同样,新的无监督学习和半监督学习模型有望在现实世界计算机视觉的一般领域中应用。未来在视觉transformer可解释性方面的工作将允许基于多个样本的聚合度量获得更全面的见解[41]。可解释性研究也有望评估基于模型和无模型强化学习方法之间的差异[42]。数据分散是ITS中公认的趋势,为了解决数据隐私、大规模数据处理和效率等问题,基于视觉任务的众感知[210]和联合学习[211]是ITS和AD中不可避免的未来方向。此外,与为单个任务训练单个模型的传统方式不同,使用通用基础模型(例如Florence[212])学习多个下游任务是处理各种数据挑战的一种有前途的趋势。另一种机制是ITS中的数据处理并行性,与边缘计算相结合,用于多任务(例如,交通监控和道路监控)学习[213]。
深度学习模型经过训练,直到达到良好的准确性,但真实世界的测试往往揭示出边缘情况和复杂环境条件下的弱点。需要在线学习,以使此类模型继续改进并适应现实场景,否则无法实际使用。如果由于缺乏对预测正确性的实时反馈而无法进行在线训练,则必须使用人工存储和标记的真实数据定期分析性能。这可以作为一种迭代反馈循环,其中模型不需要显著改变,只需要根据其发现的最具挑战性的输入进行增量重新训练。部分自动化这一点的一种可能方式是使用相同的输入数据进行多个不同的冗余体系结构的预测以及置信度得分。如果输出不一致,或者如果某个输出的置信度分数较低,则可以手动标记该数据点并将其添加到下一次训练迭代的训练集中。
部署到边缘设备的复杂深度学习模型需要通过诸如修剪之类的方法来提高效率。简单的修剪方法可以将CNN性能提高30%以上,根据具体的架构,模型还可以被划分为部署在独立边缘单元上的不同功能块,以最小化带宽和计算时间[215]。边缘人工智能的一个可预见的未来阶段是“边缘的模型训练和推理”,没有云数据中心的参与!
近年来,人们对可解释的人工智能进行了大量研究,尤其是在计算机视觉方面。已经使用三种可解释的方法来处理神经网络:基于梯度的显著性图、类激活映射和激发反向传播[216]。[217]中将这些方法扩展到图卷积网络,指出输入中与分类相对应的模式。[218]中给出了自我注意和共同注意transfomer网络的可解释性通用解决方案。虽然将这些方法应用于交通应用并不简单,但已经做出了一些努力来理解深度时空神经网络,该网络处理视频目标分割和动作识别,量化网络中的静态和动态信息,并深入了解模型,突出从数据集学习到的偏差[219]。为了减轻遮挡、噪声和传感器故障的影响,合作传感模型开发是未来更好地感知3D的必要方向。V2X网络和视觉transformer已用于鲁棒协作感知,可支持连接的自动驾驶车辆平台中的感知[155]。联网的自动驾驶汽车还将托管其他深度学习模型,这些模型可以以分布式方式从新数据中学习。共识驱动的分布式感知有望利用6G V2X等未来网络技术,从而实现低延迟模型训练,从而实现真正的L5级自动驾驶汽车。
多模态感知和合作感知是未来实用研究的必要途径。视频、激光雷达和音频等不同的模式可以组合使用,以提高纯粹基于视觉的方法的性能。音频尤其适用于早期检测行人中的异常情况,如打架或骚乱,以及拥挤十字路口的车辆,因为视觉混乱可能不会立即显示机械故障或轻微事故等问题。协作感知将允许来自不同车辆的同一环境的多个传感器视图构建包含比任何单个代理都能感知到的信息更多的公共图片,从而解决遮挡和照明问题。使用迁移学习来提高现实任务中的模型性能的趋势越来越大。最初,基于合成数据对模型进行训练,并使用任务特定数据进行微调,从而降低了复杂的一次性深度学习模型的可靠性,并通过对具有挑战性的城市场景进行再训练来提高真实世界的性能。如前所述,领域适应、zero-shot学习、few-shot学习和基础模型是预期的转移学习领域,可用于此目的。在嵌入式硬件上部署后,通过在拥挤且具有挑战性的场景中进行在线学习,可以进一步改善[185]中所述的无监督方法的结果,因为存在无限量的未标记数据。在[221]中,作为异常检测的深度学习方法的一个重要方面,讨论了在复杂环境中缺乏关于误报率上限的理论性能分析,建议未来的研究也包括这一分析。很难想象完全依赖监控摄像头来进行强大、广泛和经济的交通异常检测。[222]中的方法包括交通、网络、人口统计、土地利用和天气数据源,以检测交通。这种想法可以与计算机视觉应用结合使用,以获得更好的整体性能。
ITS中边缘计算应用的未来方向将考虑多源数据融合和在线学习。许多因素,如看不见的车辆形状、新的周围环境、可变的交通密度和罕见的事件,对DL模型来说都太具有挑战性,该新数据可用于系统的在线训练。传统应用程序可以使用边缘计算和IoV/IoT框架进行扩展,从视频中重新识别车辆正在成为遮挡的最稳健解决方案。然而,包含更多用于学习的时空信息会导致更大的内存和计算使用。使用已知特征,可以在不同时间点将一个相机视图中的轨迹与其它视图进行匹配。代替使用固定窗口,基于相似性和质量的自适应特征聚合可以推广到许多多目标跟踪任务[225]。transformer在学习异构体之间的动态交互方面特别有用,这在拥挤的城市环境中对于检测和轨迹预测特别有用。它们还可用于检测异常和预测潜在危险情况,如多用户异构场景中的碰撞!
[1] Deep Learning based Computer Vision Methods for Complex Traffic Environments Perception: A Review
版权声明:本文为奥比中光3D视觉开发者社区特约作者授权原创发布,未经授权不得转载,本文仅做学术分享,版权归原作者所有,若涉及侵权内容请联系删文。
3D视觉开发者社区是由奥比中光给所有开发者打造的分享与交流平台,旨在将3D视觉技术开放给开发者。平台为开发者提供3D视觉领域免费课程、奥比中光独家资源与专业技术支持。
加入【3D视觉开发者社区】学习行业前沿知识,赋能开发者技能提升!
加入【3D视觉AI开放平台】体验AI算法能力,助力开发者视觉算法落地!
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。