赞
踩
论文地址点击这里,这篇文章是Scandinavian Conference on Image Analysis (SCIA)的2017年的论文。
这篇论文提出了一个新颖的多模态卷积神经网络框架,它不仅利用颜色信息,而且还利用辅助的输入信息。这个融合的模型实现了一个中层的特征融合,使得这个网络在已有中层特征的基础上,能够利用跨模型的相互依赖信息,这个网络可以用于RGB-D图像理解的工作任务中。目前为止,先进的RGB-D卷积神经网络通常使用只包含颜色信息的数据集上训练得到的权重文件。相反,我们提出了一个更优的初始化方案,单独地对多模态卷积神经网络的深度通道分支进行预训练。在端到端的网络参数训练过程中,使用具有挑战性的Cityscapes数据集来联合优化网络,模型的有效性在实验结果中也有所体现。在语义分割和目标检测两个不同的任务中,RGB GoogLeNet和之后的RGB-D方法都表现出色。之后,这篇论文介绍了如何在Cityscapes数据集上,从实例级别的标注信息中提取目标级别的标签信息,从而去训练一个更加强健的目标检测器。
对图片内容进行语义解释是计算机视觉中的一个最基本的问题,也是各种视觉应用中的最重要的问题。超大规模的数据集的可用性已经推动了以数据为驱动的机器学习算法的发展,在各种各样的任务和应用中,尤其是卷积神经网络正在推动先进算法子图像理解任务中的发展。与此同时,在过去的几年中,能够拍摄高精度图片的照相机的价格也不断下降,我们希望这个趋势能够继续下去,并且也关注着能够处理高精度图片以及能够满足实时处理的高效算法,比如机器人和自动驾驶领域的算法。计算机视觉社区的主要注意力都放在了颜色信息的解释性上面了,却忽视了其他领域的辅助性输入信息,比如深度信息、红外信息和动作信息。在这个工作中,我们重点将深度信息数据视作为卷积神经网络的额外,然而,所提出的方法很溶液替换成其他的模态。
对于大规模的数据集,比如ImageNet,MS COCO或者place数据集,它们只提供RGB图像并且不允许训练较大的多模态卷积神经网络。因此,在多模态数据上只使用先进的CNNs方法进行训练并不是最优的(因此这些CNNs方法只能够处理单模态的数据)。主要有两个不同的方法来解决这个问题:只使用少量的数据进行训练并接受较低的性能,或者已有的RGB网络框架只是简单的应用在这个新的领域中(比如深度信息中)并且和那些负责颜色领域的分支进行融合。
如图1所示,这篇论文提出了一个新颖的网络架构,它能从两个独立的输入分支中进行中层特征的融合。这个方法结合了之前方法的优点:首先,通过联合的特征处理,这个网络能够利用高度复杂的域间相互依赖关系,从而最大化网络的语义精度;其次,它能够利用大型数据集的初始化方法。之后,我们论证了使用这个网络架构以及在深度分支中训练颜色输入分支是次优的,并且提出了一个更优的替代的网络架构和一个参数初始化方案,它在语义精度方面能够产生非常大的性能提升。实验表明在深度数据上学习过的过滤器和在RGB数据上训练的过滤器有着很大的不同。
总的来书,这篇论文提出了一个简单但是高效的新颖的网络框架和一个参数初始化方案,它不仅能够利用颜色信息还能够利用深度信息进行学习。这个方法在语义分割和目标检测这两个不同的计算机视觉任务中都产生了一个非常大的性能提升。它是基于标准的先进的网络框架并且也很容易用不同的模态和任务进行替换。
大量相关的文献可以分成三个不同的领域。
(1)基于CNNs的语义分割。这个分支又可以分成包含额外图解模型和不包含额外图解模型两个方面。因为计算效率,我们选择了纯粹的基于CNN的语义分割方法。尽管有着较高的计算负担,但是使用CNNs的集成的方式依然可以得到优异的性能表现,这篇论文的范畴是展示如何利用多模态的数据。最后,我们并没有使用集成的网络架构,并且使用标准的网络架构和训练策略。
(2)基于CNNs的目标检测。当前的文献可以分为两个方向。首先,比如RCNN,Fast RCNN或者是R-FCN方法需要生成候选区域,然后再对每个候选区域进行分类。另一个方法是不需要生成候选区域,比如Overfeat,YOLO或者SSD。因为需要权衡计算时间和性能,我们主要关注SSD方面的工作。
(3)基于CNNs的深度数据。大部分的工作使用额外的输入特征,比如梯度信息的高度、深度和角度。与此相反,采购员可利用RGB颜色信息之外,我们还简单利用反向深度图像作为输入。一些方法使用图解模型来增加语义精度,但是增加了计算损耗。在尺度金字塔中,深度输入还被用于选择尺度,然而这种方法缺少可以利用的深度特征,比如深度的不连续性。这个方法作为我们在第四部分实验内容的baseline方法。这些方法的更大的不同在于特征融合的级别。参考文献4,7,37研究了将颜色和深度信息进行early fusion,也就是将输入信息进行concatenation。但是参考文献4表明late fusion的效果更好。我们使用少量的带有标签的多模态数据集处理了这个问题。另一方面,目前很多方法采用late fusion,也就是将网络分成深度数据分支和颜色数据分支。分类器应用在单独的训练模型中或者在这个网络的最后一层进行融合和联合训练。受端到端学习思想的启发,我们也应用了联合训练。和这些方法相比,从深度数据特征和颜色数据特征进行的中层特征融合更优。
最近和这篇论文相关的工作也在RGB-D的数据集上使用了mid-level fusion。然而,我们的融合方式与其存在一些区别:首先,它们基于SegNet网络架构使用了一带反池化层的解码器架构。因为它们在Cityscapes数据集上的效果并不好,我们选择使用一个学习过的转置卷积解码器作为替代(其实也就是反卷积)。尽管Sun RGBS数据集上提供了640*480左右可变的分辨率,但是fusenet还是使用了224*224px的小分辨率图形作为网络的输入。这篇论文主要关注高分辨率的图像——在训练和测试阶段,我们都使用分辨率为2048*1024px的图像。最后,在深度特征分支上使用在ImageNet上预训练权重是非常必要的。在这篇论文中,我们证明这是非最优的选择:在CNN中,在包含深度的数据上训练得到的参数有着与在RGB数据上所不同的过滤器,并且也有更优的结果。我们希望这篇论文能够激发更多在更富有挑战性的、高分辨率的Cityscapes数据集上的探索深度特征数据的工作。
我们的主要贡献有:
(1)首先,提出来一个通用的中层特征融合的网络架构以及对额外模态的初始化方案。这个网络架构很简单但是非常的高效,并且可以很容易的应用到不同的模态和任务中。
(2)其次,在Cityscapes数据集的实验上,论证了所提方法的有效性。同时,RGB和RGB-D的基准方法在语义分割和目标检测任务中都有着很好的效果。
(3)最后,论证了如何在Cityscapes数据集上使用像素级别的标注去为目标检测任务训练一个强大的神经网络。SSD方法也可以代替GoogLeNet方法用来扩展多模态卷积神经网络。
在这个工作中,我们提出了一个新颖的深度卷积神经网络,它除了利用了单一的颜色信息之外,还利用了其他模态的信息,比如深度信息。因为在很多情况下,新模态并不存在例如ImageNet这么大的数据集,因此简单的使用现有先进的CNN架构并在多模态数据集上进行训练并不现实。因此,我们使用GoogLeNet网络并且将其与在深度特征数据上优化过的深度特征分支进行融合。需要注意的是,在这个任务中所表述的变体很容易替换成其他的模态,比如光流和红外线,以及其他网络架构,比如Network-in-Networkd,VGG和ResNet。
Depth Networkd 对于深度特征分支,我们在单独的深度特征数据上训练NiN的变体,然后使用Cityscapes数据集的半监督学习部分的数据集来进行参数的初始化。 NiN由多个模块组成,每一个模块都由一个卷积层和多个1*1的卷积核构成。这样一个模块等价于一个多层感知机(MLP)。对于分类任务来说,全局平均池化使得每一类输出一个置信度得分。我们按照文献31的信息,在全卷积神经网络中丢弃了全局平均池化,它预测每个像素的置信度得分和类别信息。
我们认为深度信息所需要的过滤器和在RGB数据上得到的过滤器不一样。举例来说,我们需要哪个边和团的过滤器要更宽,让其对噪声深度估计更加的鲁邦。因此,我们使用随机初始化进行训练,考虑到深度特征通道数是1,而颜色通道数为3,因此把每一个网络层的通道数减少到原来网络层的三分之一。
RGBD Network GoogLeNet使用卷积层和最大池化层构成第一部分,它能够快速降低空间分辨率。之后紧接着9个inception模块,其中包括减少空间维度的池化层,如图1所示。我们将深度特征和RGB网络进行融合来识别不同的点信息。首先,RGB和深度特征输入可以直接堆叠在一起构成一个新的卷积层,我们将其称之为early fusion。其次,RGB网络的得分和深度分支可以在网络尾部进行融合,后面跟着一个1*1卷积进行分类。我们称之为late fusion。最后,深度特征分支放在RGB网络的最大池化之前,然后紧跟着一个1*1额卷积层,将其与RGB网络进行融合。在中层特征融合方法使用到的NiN模块的个数由RGB网络的空间维度决定。因此,我们根据NiN的个数来给这些模块命名,比如NiN1。
理论上来讲,像上面提到的进行early-fusion的多模态CNN只考虑输入模态,通过学习特征可以形成独立的网络流。因此,early fusion通常比mid-level fusion要昂贵,它可以利用以及处理低层CNN的计算模式之间的相关性。然而,昂贵的代价就是训练的时候需要更大的数据。later fusion的好处急救室可以直接复用网络初始化参数,而不需要改变网络的权重来适应新增的模态。但是,因此它只是将置信度得分和分类特征进行融合,所以网络不能够学习两个独立输入模态之间的相关性。
我们在语义分割和目标检测任务中评估了所提的模型。
Dataset 在整个实验中,我们使用Cityscapes数据集,它提供了19类内城交通场景下的像素级别的语义标注信息,即人、车和道路等。除了精细标注的信息,还提供了20000张粗略标注的标注图片。粗略标注的标签使用多边形进行标注,因此标注的过程非常迅速。尽管很多像素没有标注,但是每个标注过的像素信息都是正确的。
Evaluation and Training Details 我们使用20000张粗略标记的图像来训练NiN,深度特征通道由三个NiN模块构成,每个模块都使用两个1*1的卷积层。我们按照FCN网络架构并添加了两个skip connection来利用低维图像的特征。我们的batch size设置为10,在训练过程中随机裁剪图像。我们参考文献31,然后将深度信息编码成视差,也就是逆深度。缺失的测量值编码成-1,然后减去平均值。经过初始化之后,这个网络在Cityscapes的2975张精心标注的训练集上进行微调,我们使用500张验证图像评估模型的性能。我们使用IOU作为评价指标。
这19个类别的Cityscapes类别被分成七个种类:flat,construction,nature,vehicle,sky,object和human。除了测量这19个类别的IoU,我们还测量了这7个种类的IoU性能。
Initialization Method 在第三部分,我们认为CNN的深度特征数据应该和RGB数据不一样。第一,我们在不包括RGB图像的深度特征数据上单数训练了CNN,所提出的模型和原始NiN的比较结果如表1所示。从表格的上半部分,我们首先可以观察到我们不能仅从Cityscapes数据集上训练原始的NiN。然而,只有通道只有原来1/3的NiN的变体的结果很多。第二,使用在RGB ImageNet数据上训练的权重知道了学习过程,并且提高了2.5%的检测性能。然而,在真实的深度特征数据上的初始化产生了很大的性能提升。总的来说,这个网络的参数数量减少了1/3,计算损耗也降低了1/3,另一方面,性能也得到了很大的提升。如图2所示,深度特征输入和颜色特征输入的第一个卷积层的结果有着本质的区别。显而易见,我们所提出的模型上的有意义的过滤器的数量更多,这是因为我们减少了网络中过滤器的数量。
这一部分略,因为目前我更关心基于RGB-D的目标检测。
Dataset, Evaluation and Training Details 对于目标检测,我们也使用Cityscapes数据集。因为所有物体非常准确的标签,bounding boxes可以从像素级别的标注中简单的提取出来。在训练的时候,我们使用包含2975张全标注图像的训练集,因为没有测试集的groundtrth,我们在验证集上对图片进行测试。因为并不是所有的标签都是类别标签,我们只使用Cityscapes的子集:vehicle (在Cityscapes中有:car, truck, bus),bike(在Cityscapes中有:motorcycle, bicycle),traffic sig, traffic light, human(在Cityscapes中有:person, rider)。
下面就是对TP,FP和FN的说明,用来评估模型的性能。
Results 首先,我们使用SSD代替GoogLeNet网络架构来对RGB输入图像进行处理,然后增加了一个在第三部分所提到的深度特征分支。图四显示了每一类及其平均准确率-召回率的曲线。human和bike类别的性能增长的非常迅速。如图5所示,我们提出来的模型比传统只使用RGB图像的方法的鲁棒性和准确率更高。
这篇论文提出来一个新颖的、通用的CNN框架,它除了利用单一的颜色信息,而且还利用其它的模态作为输入。最后,GoogLeNet使用了深度特征作为补充输入。这个联合的网络使用了中层特征融合的方式,使得昂罗可以在已有的中层特征的基础上利用跨模态的相互依赖关系。目前为止,先进的RGB-D的CNNs都是在RGB数据上进行预训练,相反,我们提出了一个最优的初始化多模态CNN的深度特征分支的方案。使用Cityscapes数据集优化端到端训练的模型的参数,在语义分割和目标检测中进行了评估。在论文的后半部分,我们论证了如何从Cityscapes的实例级别标注中提取目标级别的groundtruth,以此来训练一个更加强健的SSD目标检测器。实验结果将所提的多模态CNN的高效性体现的淋漓尽致,同时,RGB 的GoogLeNet和RGB-D的baseline的性能也非常的好。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。