赞
踩
©PaperWeekly 原创 · 作者 | 陈超奇
单位 | 香港大学
研究方向 | 迁移学习
论文标题:
I2F: A Unified Image-to-Feature Approach for Domain Adaptive Semantic Segmentation
论文链接:
https://arxiv.org/abs/2301.01149(预印版)
https://ieeexplore.ieee.org/abstract/document/9984933/(IEEE TPAMI版)
摘要
本文研究用于语义分割任务的无监督域自适应 (UDA)算法。我们观察到图像低层统计量和高层语义中的域差异显著地影响目标域上的分割性能。因此,解决这个问题的一个关键是同时执行图像级别和特征级别的域适应。然而,已有的文献中缺乏这种统一的结构,特别是针对语义分割任务。
本文提出了一种新颖的用于语义分割的 UDA 框架,它将图像级别和特征级别自适应统一起来。具体而言,针对图像级别的域偏移,我们提出了全局光度对齐模块和全局纹理对齐模块,以图像级属性对齐源域和目标域中的图像。对于特征级别的域偏移,我们通过将来自两个域的像素特征投影到源域的特征流形上来执行全局流形对齐;并且我们通过面向类别的三元损失正则化源域中的类别中心,并在增强的目标域图像上执行目标域一致性正则化。
实验结果表明,我们的方案明显优于以前的方法。例如,在 GTA5→Cityscapes 这一经典任务中使用 Deeplab V3+ 作为主干网络,我们提出的方法超过了先前最好的方法 8 个点,在 mIoU 方面达到了 58.2%。
背景
尽管现有的语义分割模型在深度神经网络浪潮中的性能得到了显著提高,但训练语义分割模型通常需要大量带有像素级注释的图像,这个收集过程既费力又耗时。无监督域适应(UDA)用于语义分割是避免数据注释问题的一种替代方法:通过共同利用来自不同源数据集(两个数据集的标签空间必须兼容)的带标签图像,从未标注的目标数据集中学习一个性能良好的模型。
然而,不同数据集之间存在域偏移。最明显的差异是与颜色、纹理甚至光照条件有关的低级图像统计数据。这些差异可以通过图像级适应来部分缓解。然而,不同数据集之间还存在物体级别的差异,如物体姿态和空间分布,这导致了不同的特征分布。所有这些域偏移都对语义分割模型的最终性能产生了不利影响。因此,对于无监督域适应语义分割,学习能够克服图像级和特征级域偏移的特征表示至关重要。
域偏移的原因在以前的研究中得到了广泛的研究。一般而言,主要原因可以分为图像级别的域转移和特征级别的域转移。图像级别的域转移是指成像条件的差异,例如相机成像管道中的照明和设置。它们影响图像的整体外观,对特征级别的分布产生微妙的影响。
现有的解决图像级别域转移的工作通常基于图像级别风格转换,这利用了深度模型,如生成模型或图像到图像转换模型 [1],或傅里叶变换 [2]。我们将这些方法称为图像级别适应方法。这些方法已经证明了通过转移图像风格或对齐特征分布可以使两个域更加接近。然而,生成方法通常需要计算昂贵的训练过程,其不稳定性是众所周知的。生成模型还容易出现模式坍塌,使得生成特征的范围异常小。另一方面,基于傅里叶变换的方法
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。