赞
踩
[Paper] EdgeFlow:Achieving Practical Interactive Segmentation with Edge-Guided Flow(2021)
[Code]PaddlePaddle/PaddleSeg
EdgeFlow: Achieving Practical Interactive Segmentation with Edge-Guided Flow
EdgeFlow:使用 Edge-Guided Flow 实现实用的交互式分割
高质量的训练数据在图像分割任务中起着关键作用。通常,对于大量训练数据,像素级注释昂贵、费力且耗时。为了降低标记成本并提高分割质量,已经提出了交互式分割方法,只需点击几下即可提供结果。然而,它们的性能在速度和准确性方面不能满足实际分割任务的要求。在这项工作中,我们提出了 EdgeFlow,这是一种新颖的架构,它通过边缘引导流充分利用用户点击的交互信息。我们的方法在没有任何后处理或迭代优化方案的情况下实现了最先进的性能。基准测试的综合实验也证明了我们方法的优越性。此外,使用所提出的方法,我们为实际数据注释任务开发了一种高效的交互式分割工具。源代码和工具可从 https://github.com/PaddlePaddle/PaddleSeg 获得。
深度学习在计算机视觉领域取得了巨大成功,例如图像识别 [7, 23]、对象检测 [13, 22] 和图像分割 [12, 35, 33]。为了学习强大的抽象,大量标记的图像数据对于模型训练过程通常是必不可少的。随着数据量的增加,人工标注的成本快速增长,尤其是在涉及像素级分割任务时。尽管已经提出了半监督甚至无监督的算法来缓解标签依赖性,但它们与全监督的准确性仍有很大差距。
因此,交互式分割似乎是一种有吸引力且有效的方式,它允许人类注释者快速提取感兴趣的对象 [55]。与以模型为中心的方法不同,交互式分割方法考虑了交互式信息。因此,它们简化了注释过程并逐步提高了质量。一般来说,交互信息可以是各种输入,例如涂鸦[4]、点击[50、32、49]、边界框[53]等。
以前的工作已经很好地研究了不同交互的特征,其中基于点击的方法是最有前途的,因为它们以最少的交互时间提供了足够的选定对象信息。在实践中,基于点击的方法通常使用两种类型的用户点击,即正面点击和负面点击。正面点击旨在强调目标对象(前景),负面点击隔离非目标区域(背景)。通常,此类方法只需点击几下即可完成对象分割任务,如图 1 所示。
近年来,有一些关于基于点击的交互式分割的作品 [24, 21, 49],其中深度学习方法在准确性方面超越了传统方法。然而,它们中的大多数都需要在评估过程中进行额外的后处理,这在实践中很耗时。最近,端到端交互算法 [32, 50] 被提出来加速点击交互,但它们有共同的问题。点击是第一层的唯一输入,因此特定的空间和语义信息将通过早期层被稀释。另一个问题是连续点击的关系没有正确建模,导致注释不稳定,例如 两次连续点击之间的分段注释会发生显着变化。
在这项工作中,我们提出了一种新颖的交互式分割架构,它充分利用了用户的点击和连续点击的关系。为了增强交互信息,用户点击的特征被嵌入到早期和晚期层中,并且图像特征与早期-晚期融合策略有效地集成。为了建立两次连续点击之间的关系,将前一次点击生成的边缘掩码与当前点击一起作为输入。显着提高了分割结果的稳定性。此外,我们采用粗到细的网络设计来进一步获得细粒度的分割。综合评估显示了我们在知名基准测试中的最先进性能。
此外,基于所提出的交互模型,我们为实际的分割任务开发了一种有效的交互式分割工具,例如 图像标记。该工具不仅生成分割掩码,还允许用户调整掩码的多边形顶点以进一步提高精度。因此,该工具根据不同的实际任务为注释准确性提供了灵活的选择。
我们的贡献总结如下:
交互式分割任务旨在以最少的用户交互获得对象的准确掩码。交互信息可以是点击、划痕、轮廓、边界框、短语等。根据信息建模的类型,交互式图像分割算法有两个研究分支。
基于优化的方法 其中大部分是传统方法,分为四类:1) 基于轮廓的方法 [42, 43, 11, 3, 25], 2) 基于图形的方法 [9, 8, 34], 3) 基于随机游走的方法 [15, 14, 5] 和 4) 区域合并方法 [ 2, 47, 46]。作为一种基于轮廓的方法,主动轮廓模型(ACM)[44]构建并优化能量方程,直到闭合曲线上的力减小到零。基于 Graphcut 的方法 (GC) [9, 8] 利用 min-cut/max-flow 算法来最小化能量函数。基于随机游走的方法 (RW) [15, 14] 以像素为顶点,以邻域关系为边来构建无向图。区域合并方法(RM)由用户交互种子初始化,然后通过同质性标准收集相似的点和区域。
传统方法有共同的缺点。这些方法的泛化能力较差,仅适用于特定场景。此外,它们对初始交互信息很敏感,需要高质量的交互而没有嘈杂的输入。
基于深度学习的方法:徐等人[52]首先引入深度学习来解决交互式分割问题。他们将交互式点击转换为距离图,然后将距离图与原始图像一起作为输入来微调 FCN [35]。之后,Maninis 等人 [40] 将对象的极值点作为交互信息,并利用 DeepLabv2 [12] 作为分割模型。激活优化已应用于反向传播细化方案 (BRS) [21],该方案通过采用 L-BFGS 算法校正错误标记的像素。然而,优化是耗时的。不久之后,提出了 Feature-BRS [49] 来改进优化方案并加快交互过程。错误标记的像素将通过从网络中间修改特征的辅助尺度和偏差来纠正。Kontogianni 等人[24] 通过在测试时优化模型参数来调整目标对象的掩码。索菲尤克等人[50] 通过使用先前的掩码输出应用了迭代训练过程,从而提高了分割精度。
然而,这些方法在评估过程中高度依赖后处理或额外的优化方案,这需要额外的时间和计算。此外,它们对新的点击很敏感,导致分割掩码不稳定。
在这项工作中,我们提出了一种新颖的交互式分割架构,它充分利用了点击次数和连续点击次数的关系。与之前在第一层将图像和点击结合在一起的方法相比,我们提出的方法 1) 利用单独的分支来增强点击的特征,使网络能够更好地响应交互信息; 2)应用边缘掩码作为网络的先验信息,稳定注释。
如图 2 所示,所提出的架构由两部分组成,输入基础分割模型(CoarseNet)和细化模型(FineNet)。对于网络输入,边缘掩码和正/负点击由交互式分支编码。
粗网 我们利用 HRNet-18 [51] 作为主干和 OCRNet [54] 作为分割头。该架构已被证明非常适合语义分割任务。与通用分割模型中的单个图像分支不同,我们在主干中添加了一个交互分支来处理正面点击、负面点击以及边缘掩码。一开始,边缘掩码被初始化为一个与输入图像大小相同的零图。
接收到用户点击后,通过分割结果估计边缘掩码,然后作为输入的一部分。为了获得准确的边缘掩码,我们在分割头中为边缘约束添加了一个辅助块。图像与交互分支的融合细节将在3.2节介绍。
精网 我们利用 FineNet 模块进一步细化粗分割掩码。该模块以三部分作为输入,CoarseNet 的输出、原始图像和用户点击,其中图像和用户点击与 CoarseNet 中的部分输入相同。请注意,为了更好的可视化,我们没有将它们连接到图 2 中的 FineNet,而它们在我们的实现中是连接的。
为了提高计算效率,我们在 FineNet 中使用了三个具有轻量级操作的多孔卷积块。多孔卷积还可以在高分辨率特征上获得大的感受野,从而可以获得更多的上下文信息并提高输出的质量。
点击编码:交互信息包含正负点击坐标。正面点击强调目标对象,负面点击隔离废弃区域。为了实现直觉并提供给网络,需要将点击编码为特征图。通常,交互式分割方法利用高斯算法或 L2 距离来生成距离图作为特征图。然而,当添加一个新的点击时,这种距离图会发生巨大的变化。本南森等人[6]发现磁盘映射比其他编码方法具有更稳定的性能。受 [6, 50] 的启发,在我们的实现中,我们利用半径为 5 像素的磁盘映射对正点击和负点击进行编码。
早晚融合:一般来说,分割模型只支持三通道图像作为输入。因此,应该修改通用模型以适应额外的交互输入。一些方法 [49, 40, 38] 在主干前面引入额外的卷积层以接受 N 通道输入,如图 6 所示。它们都在骨干网络之前融合了交互和图像特征,这就是所谓的早期融合。早期的融合方法普遍存在交互信息提取不正确的问题。交互特征比图像特征稀疏得多,并且包含高级信息,例如 位置信息。骨干网的早期层侧重于低层特征提取,因此交互特征会通过早期层被稀释,网络无法及时响应用户点击。
为了防止特征稀释,我们提出了一种早晚融合策略来整合交互和图像特征。我们设计了多阶段特征融合,而不是仅在网络开始时融合特征,如图 2 所示。第一次融合与图6(b)相同。第二次融合发生在主干的第一个过渡块和第二个阶段块之间。最后一次融合是在第四阶段块之后。多级融合促进了交互信息在网络上的传播,也使网络能够准确响应用户点击。
边缘引导:交互式分割的关键思想是随着用户点击逐步改进分割掩码。由于用户点击的空间差异很大,连续点击的特征会有很大的不同,从而产生戏剧性的分割掩码。 先前的方法[50]引入了先前点击的分割掩码作为输入,在一定程度上缓解了这个问题。然而,全掩码可能会使模型陷入局部最优,例如 一个糟糕的先前掩码通常会导致糟糕的分割结果。为了提高分割掩码的稳定性,我们提出了一种边缘掩码方案,该方案将前一次迭代估计的对象边缘作为先验信息,而不是直接掩码估计。边缘估计比输入的全掩码更稀疏且波动更小,因此可以提高分割的稳定性和效率。
在交互式分割模型中,交互图像和边缘掩模特征是异构的,导致空间偏差很大。因此,有必要正确对齐这些。光流方法最初用于对齐视频中两个相邻帧的特征[36]。在语义分割中,它对多尺度特征对齐同时融合不同层是有效的。受 [26, 27, 28] 的启发,我们采用流模块来对齐图像和交互特征,以便可以精确表示空间信息。 流模块的细节如图2所示。
我们期望损失函数更关注错误的像素而不是分类良好的像素。 受 [50] 的启发,我们利用归一化焦点损失来计算预测掩码和地面实况掩码之间的差异。它可以表示为等式 1:
其中
γ
\gamma
γ是焦点损失的超参数。
p
i
,
j
p_{i,j}
pi,j 表示像素
(
i
,
j
)
(i, j)
(i,j)的预测置信度,表示为:
其中
p
p
p 是位置
(
i
,
j
)
(i, j)
(i,j)上的预测概率,
y
y
y是位置
(
i
,
j
)
(i, j)
(i,j)上对应的地面实况。
为了最小化上次迭代的边缘估计与从地面实况掩码导出的边缘之间的差异,我们采用平衡的 BCE 损失 L e L_e Le 来分配对边缘的更多关注,而不是对背景的关注。此外,我们利用 BCE 作为辅助损失 L a L_a La 来约束主干输出。
数据集:在[50]之后,我们使用COCO [31]和LVIS [20]的组合作为训练数据。 LVIS 包含 164k 图像和 2M 高质量实例掩码,具有 1000 多个类。 由于来自 LVIS 数据集的长尾对象类,在 [50] 之后,我们使用 10582 个 COCO 图像和相应的 25832 个实例掩码作为增强数据集。
我们在四个流行的基准测试中评估我们的方法,包括 GrabCut [48]、Berkeley [41]、Pascal VOC [16]、DAVIS [45]。 GrabCut 数据集包含 50 个图像和 50 个掩码。 Berkeley 数据集包含 96 个图像和 100 个掩码。 对于 Pascal VOC 数据集,我们仅使用验证集,其中包含 1449 个图像和 3417 个实例。DAVIS 数据集是从视频对象分割数据集中随机采样的。 我们采用 [21, 50] 中介绍的 345 个图像和相应的 345 个掩码。
评估指标:平均交叉并集(IoU)和标准点击次数(NoC)用作评估指标。 NoC 表示实现超过指定 IoU 阈值的交互点击次数,通常设置为 85% 和 90% [50, 40, 49, 21],即 NoC@85 和 NoC@90。 在评估过程中,我们按照 [49, 21, 50] 构建了一个模拟来生成点击。 第一次点击对感兴趣的对象是积极的。 下一次点击被选为最大误差区域的中心。 注意,在本作品中,最大点击次数为 20,与 [49, 21, 50] 相同。
实现细节:在这项工作中,我们利用 COCO+LVIS 数据集来训练我们的模型。 对于数据增强,我们采用随机调整大小,比例从 0.75 到 1.4,水平翻转,随机裁剪图像,调整大小为 (320, 480)。 对于颜色失真,我们利用原始图像的对比度、亮度和像素值的随机分布。
在我们的实验中,focal loss
L
m
L_m
Lm、平衡BCE loss
L
e
L_e
Le和BCE loss
L
a
L_a
La的权重分别设置为1、0.4、0.4。 首先,我们以
5
×
1
0
−
4
5×10^{−4}
5×10−4 的学习率训练 CoarseNet 40 个时期。 然后,我们在最后 30 个时期训练整个网络,其中 FineNet 的学习率为
5
×
1
0
−
4
5 × 10^{−4}
5×10−4,CoarseNet 的学习率为
5
×
1
0
−
5
5 × 10^{−5}
5×10−5。 我们利用 Adam 优化器和多项式衰减将学习率降低到初始学习率值的 1%。
我们的模型基于 PaddlePaddle [37, 1]。 我们在 2 个 GPU(Tesla V100)上训练模型,batch size 设置为 32。
NoC@k。我们计算 NoC@85 和 NoC@90 作为 GrabCut、Berkeley、DAVIS 和 Pascal VOC 的指标。评估结果如表 1 所示。我们的方法在除 GrabCut 之外的所有数据集上都取得了最佳性能。 GrabCut 的对象数量有限,边界清晰,因此所有深度学习方法都表现得非常好,我们的方法也取得了有竞争力的结果。而伯克利图像具有复杂的对象边界,例如 自行车车轮弹簧和降落伞绳索。 在这个数据集中,我们的方法与其他方法相比取得了最好的性能。 由于我们的方法利用边缘掩码作为先验信息,它提供了更准确的分割对象细节。
对于 DAVIS 和 Pascal VOC 数据集,它们包含超过 1.5k 幅具有各种场景的图像,更适合实际任务。 与其他方法相比,我们的方法取得了最好的结果。 分析结果,我们认为早晚融合策略可以防止网络上交互式点击稀释的特征。 因此,我们的方法可以有效地响应点击,并且在各种场景中都具有鲁棒性。
每次点击的 mioU。 图 7 显示了不同数据集上前 20 次点击的 mIoU 变化。 有三个观察结果:1)与其他方法相比,我们的方法具有最稳定的性能,其中随着点击次数的增加,mIoU 逐渐提高。 但是,其他方法存在退化问题。 例如,当 GrabCut 数据集上的点击次数从 4 次增加到 5 次,从 10 次增加到 11 次时,RITM 的 mIoU 会急剧下降。 如上所述,所提出的边缘估计可以提高分割稳定性。 2)与其他方法相比,我们的方法需要更少的点击来实现更高的 mIoU。 在伯克利数据集中,我们方法的 NoC@95 大约为 4,而其他方法则超过 10。3)使用所有 20 次点击,我们的方法仍然在所有数据集上实现了最高的 mIoU。 实验证明了我们方法的优越分割能力。
边缘流。 我们在 Berkeley、DAVIS 和 Pascal VOC 数据集上进行消融实验,以验证边缘引导流的有效性。 如表 2 所示,边缘引导流的基线在所有三个数据集上都明显优于基线。为了更好地理解,我们将baseline和baseline+EF的中间特征图可视化,如图5所示。具有earlylate fusion的模型在坐标信息上表现出更强的激活,而early fusion有特征稀释问题。 然后,我们将基线和基线 + EF 之间的输出差异可视化,如图 4 所示。结果表明,边缘引导流提高了交互式分割性能,并在添加新点击时稳定了输出。 我们应用边缘掩码作为网络的先验信息,这使得分割结果更加稳定。
细网。 如表 2 所示,我们发现添加 FineNet 后 NoC@85 和 NoC@90 有显着改善。 如上所述,FineNet 采用多孔卷积块,在高分辨率特征上获得大的感受野,从而可以获得更多的上下文信息。
最好的结果是baseline+EF+F的组合,证明了早晚融合策略和从粗到精架构的有效性。
先验信息 表 3 显示了先验信息对不同数据集的影响。 图 8 显示了使用不同先验信息的前 20 次点击的 mIoU 变化。 我们研究了两种类型的边缘掩码,1)根据先前的分割结果估计的边缘掩码,即 EI掩码,2)Sobel算子直接计算出的边缘掩码,即SI掩码。 我们发现带有 EI 掩码的模型优于另一个模型。 在分割模型中,先验信息可以随着网络和用户交互点击进行动态调整。 因此,EI 掩码与感兴趣的对象更相关。 然而,SI掩码计算仅基于原始图像,其中包含大量与感兴趣对象无关的冗余信息。 因此,它会导致网络性能下降。
在这项工作中,我们使用所提出的模型开发了一个交互式分割工具。 我们的工具旨在帮助用户高效准确地注释分割数据集。 注释流水线包括三个步骤:数据准备、交互式注释和多边形框编辑。
在数据准备过程中,我们的工具支持多种领域的数据格式,包括自然图像、医学成像、遥感图像等。 图像加载到软件中后,可以通过调整亮度和对比度进行缩放、移动和预处理。 注释过程是高度灵活和可配置的。 应用程序中的大多数操作都支持可由用户更改的键盘快捷键。
在交互式注释过程中,用户分别通过鼠标左键和右键单击添加正负点。 该应用程序运行模型推理并显示用户预测结果,如图 9(a) 所示。 用户可以通过改变阈值来调整目标边界来区分前景和背景像素,以获得更准确的分割结果。 该工具还支持过滤最大的连接区域,如图 9(b)所示。当图像中有多个相同类型的目标时,此功能很有用。 抑制小的正区域可以使用户免于点击每个区域中的负点。
完成交互式分割后,该工具会在目标边界周围生成一个多边形框。 用户可以调整多边形顶点以进一步提高分割精度。 它对于实际的分割任务很灵活。
在某些情况下,在交互式分割过程中,调整多边形框架可能比添加多次点击更快,从而提高整体注释效率。 最后,分割结果可以保存为多种格式,包括分割掩码、PASCAL VOC、COCO、伪彩色等。
大量标记的图像数据对于分割模型通常是必不可少的。 由于像素级注释的成本很高,交互式分割成为提取感兴趣对象的有效方法。
在这项工作中,我们提出了一种名为 EdgeFlow 的新型交互架构,它充分利用了用户交互信息,无需任何后处理或迭代优化方案。 通过从粗到细的网络设计,我们提出的方法在常见的基准测试中达到了最先进的性能。 此外,我们开发了一种高效的交互式分割工具,可帮助用户通过灵活的选项逐步改进分割结果。 在未来的工作中,我们将致力于可以部署到各种平台的轻量级模型。 我们正在研究的另一个有前途的主题是多模态,它利用更多的输入类型,如音频和文本。 不同种类的投入可以相互补充,因此进一步提高质量至关重要。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。