赞
踩
目前最先进的语义分割方法几乎都是在固定分辨率范围内对图像进行训练。这些分割对于非常高分辨率的图像是不准确的,因为使用低分辨率分割的双三次上采样并不能充分地沿对象边界捕获高分辨率细节。在本文中,我们提出了一种新的方法来解决不使用任何高分辨率训练数据的高分辨率分割问题。关键的一步是我们的CascadePSP网络,它可以在任何可能的情况下优化和修正局部边界。虽然我们的网络是用低分辨率分割数据训练的,但是我们的方法适用于任何分辨率,即使是对于大于4K的高分辨率图像。我们对不同的数据集进行了定量和定性的研究,结果表明CascadePSP可以在不需要任何微调的情况下,使用我们的改进模块显示像素精确的分割边界。因此,我们的方法可以看作是类不可知的。最后,我们展示了我们的模型在多类分割场景分析中的应用。
商品相机和显示器的分辨率显著提高,4K超高清(3840×2160)成为行业高标准。尽管对高分辨率媒体的需求很大,但许多最先进的计算机视觉算法在处理高像素图像时面临着各种挑战。图像语义分割是计算机视觉的一项重要任务。面向低分辨率图像的深度学习语义分割模型(例如PASCAL或COCO数据集)通常不能推广到更高分辨率的场景。尤其是,这些模型通常使用GPU内存对像素数量线性化了,这使得几乎不可能直接训练4K 超高清分割。由于需要像素精度的标注,难以获得高分辨率的语义分割训练数据,更不用说这些高分辨率的训练数据了,为了在高分辨率图像上训练模型,需要更大的感受野来捕获足够的语义。看似可行的解决方法包括下采样和裁剪,但前者删除细节,而后者破坏图像上下文。
本文提出了一种通用的分割细化模型CascadePSP,它将任意给定的分割从低分辨率细化到高分辨率。我们的模型是独立训练的,可以很容易地附加到任何现有的方法中来改进它们的分割,可以生成更精细和更精确的对象分割掩码。我们的模型以初始掩码作为输入,它可以是任何算法的输出,以提供粗略的目标定位。然后我们的CascadePSP将输出一个精细的掩码。我们的模型是以一种级联的方式设计的,以一种从粗到细的方式生成精确的分割。早期级别的粗略输出预测对象结构,该结构将用作后期级别的输入,以细化边界细节。图1显示了模型不仅输出一个在很高的像素上的掩码,同时改进和修正错误的边界以产生更精确的结果。
为了在非常高分辨率的图像上进行评估,我们对一个高分辨率数据集进行了注释,该数据集包含50个验证和100个测试对象,其语义类别与PASCAL中的相同,被称为BIG dataset。我们在PASCAL VOC 2012、BIG和ADE20K上测试了我们的模型。对于没有使用数据集本身进行微调的单个模型,我们在这些数据集和模型中实现了对最新方法的一致改进。我们表明,我们的模型不必针对特定的数据集或特定模型的输出进行训练。相反,通过扰动标签来进行数据增强就足够了。我们也展示了我们的模型能够被拓展到场景解析,以实现具有直接适应性的密集多类语义分割。我们的主要贡献可以概括为:
•我们提出了CascadePSP ,这是一种通用的级联分割优化模型,可以对任何给定的输入分割进行优化,在不进行微调的情况下提高最新分割模型的性能。
•我们进一步证明,我们的方法可以用于产生高质量和非常高分辨率的分割,而这是以前基于深度学习的方法从未实现过的。
•我们介绍了BIG dataset,它可以作为非常高分辨率语义图像分割任务的精确评估数据集。
文献[31]首次将完全卷积神经网络(FCN)引入到语义分割中,取得了显著的进展。虽然FCNs从下到上捕获信息,但是具有广阔视野的上下文信息对于像素标记任务也很重要,并且被许多分割模型所利用[3、5、14、17、32、39、51],包括使用多尺度输入的图像金字塔方法[5、9、14、22、23、36]或通过空间池[29、53]6积[3、4、6、21、42、49]。我们选择PSPNet[53]在我们的网络中进行金字塔池化,因为相关模块独立于输入分辨率,因此提供了一种简单而有效的方法来捕获上下文信息,即使训练和测试分辨率与我们的情况有很大不同。编码器-解码器模型也被广泛应用于分割方法[1,6,21,25,27,33,37,42]。它们首先降低空间维度以捕获高层语义,然后使用解码器恢复空间范围。跳过连接[12,37,40]可以添加,以产生更清晰的边界,我们也使用了。
语义分割模型通常有很大的输出跨距比如4或者8[2, 3, 4] 由于内存和计算限制。带跨距的输出通常双倍放大到目标大小,导致边界标签不准确。最近,文献[7]的作者提出了全局局部网络(GLNet)来解决这一问题,它使用一个具有局部精细结构网络的全局信息分支。但是,它们仍然需要高分辨率的训练图像,而这些图像不适用于大多数任务。
该方法采用编码器-解码器模型,通过细化级联获得更好的语义和边界信息,有助于高效地生成高分辨率的分割。该公式也使我们的方法具有很强的鲁棒性,并且可以推广到不需要微调的高分辨率数据。
基于FCN的方法通常不会产生非常高质量的分割。研究人员已经用图形模型如CRF[2,3,23,20,30,54]或区域生长[10]来解决这个问题。它们通常遵循低级颜色边界,而没有充分利用高级语义信息,无法修复较大的错误区域。基于传播的方法[26]由于计算和内存限制,无法处理非常高分辨率的数据。单独的细化模块也用于提高边界精度[35,46,50]。他们为端到端的训练模式。大型模型容易过度拟合[50],而浅层精细化网络[35,47]的精细化能力有限。与此相反,我们的方法具有很高的模型容量,并且可以独立训练来修复只使用对象的分割。
多尺度分析利用了许多计算机视觉任务中的大尺度和小尺度特征,如边缘检测[15,45]、检测[24,28,41]和分割[7,22,52]。特别是,许多方法[22、45、52]在每个阶段预测独立的结果并将它们合并以获得多尺度信息。我们的方法不仅融合了粗尺度的特征,而且将它们作为下一个更精细层次的输入之一。我们将证明,添加粗输出作为下一个级别的输入不会改变我们的公式,因此相同的网络可以递归地用于更高分辨率的细化。
在这一部分中,我们首先描述了我们的单一细化模块,然后介绍了我们的级联方法,该方法利用多个细化模块进行高分辨率分割。
如图2所示,我们的细化模块在不同的尺度上对图像和多个不完美的分割掩码进行细化分割。多尺度输入允许模型捕捉不同层次的结构和边界信息,从而允许网络在最好的水平上从不同的尺度去精细分割去学习自适应地融合掩码特征。
所有低分辨率的输入分割都被双线性上采样到相同的大小,并与RGB图像相连。以ResNet-50[16]为骨干,利用PSPNet[53]从输入中提取8幅步幅特征图。我们遵循[1,2,3,6]的金字塔池大小,如[53]所示&#
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。