你好赵伟

这个屌丝很懒，什么也没留下！

热门标签

自监督论文阅读笔记 RingMo: A Remote Sensing Foundation Model with Masked Image Modeling

作者：你好赵伟 | 2024-03-25 18:42:25

踩

ringmo

深度学习方法促进了遥感 (RS) 图像解释的快速发展。最广泛使用的训练范式是利用 ImageNet 预训练模型来处理指定任务的 RS 数据。然而，存在自然场景与RS场景之间的领域差距，以及 RS模型泛化能力差等问题。开发具有通用 RS 特征表示的基础模型是有意义的。由于有大量未标记的数据可用，自监督方法在遥感方面比全监督方法具有更大的发展意义。

然而，目前大多数自监督方法都使用对比学习，其性能对数据增强、附加信息以及正负对的选择很敏感。

在本文中，利用生成式自监督学习对 RS 图像的好处，提出了一个名为 RingMo 的遥感基础模型框架，它由两部分组成。

首先，通过从卫星和航空平台收集200万张RS图像，构建一个大规模的数据集，覆盖全球多个场景和物体。
其次，提出了一种 针对复杂 RS 场景中密集和小型物体的 RS 基础模型训练方法。

本文展示了使用 RingMo 方法在本文的数据集上训练的基础模型在四个下游任务的八个数据集上实现了最先进的模型，证明了所提出框架的有效性。通过深入探索，本文认为 RS 研究人员是时候拥抱生成式自监督学习并利用其通用的表示能力来加速 RS 应用程序的开发了。

近年来，卫星发射的数量呈爆炸式增长[1-6]。根据相关的科学家联盟发布的报告1，截至 2021 年 12 月，有 1,000 多颗地球观测卫星在轨道上运行。随之而来的是 获取大量遥感 (RS) 卫星数据的潜力。例如，珠海一号群卫星每天可以下载近 20TB 的数据[7]。海量的 RS 数据需要经过处理和分析才能在应用任务中发挥作用。受益于深度学习，许多利用 RS 数据的任务取得了显著进展 [8-17]。目前，RS图像解译的一般范式是加载ImageNet预训练的权重，然后在指定的任务中使用RS数据和标签信息进行模型训练[18-21]。尽管这些方法在特定任务中针对特定目标表现良好，但仍存在以下问题。

1）如图1所示，由于自然场景和RS场景的差异，ImageNet预训练的权重存在域偏差，这在一定程度上影响了RS模型的性能。
2）由于受限的RS训练数据只能提供少量的场景和物体，模型的泛化能力相对较弱，难以适应其他任务。
3）为了扩展到更多的目标和任务，研究人员需要不断地注释数据，这降低了实际应用的效率。

综上所述，使用海量的 RS 数据并设计具有通用 RS 特征表示的基础模型 有望解决上述问题。

现有的 RS 基础模型训练方法 包括监督学习和自监督学习两大主流。

对于监督学习[22]，需要大量标记数据来训练基础模型。尽管这些方法效果很好，但获取标记数据需要 RS 专家花费大量时间。由于数据标注和数据采集速度之间的巨大差距，大量的RS数据无法使用。

自监督方法 [23-25] 可以利用大量未标记的数据，并且是 RS 基础模型的主流方法。对比学习 [26, 27 SimCLR v1,v2 ] 在 RS 自监督方法领域占据主导地位。

如图2所示，对比学习的核心思想是 缩小相似样本的特征距离。由于没有标签，研究人员 [23, 28] 通过对同一图像进行数据增强来创建正对，而其他图像则作为该图像的负对。此外，一些研究人员 [24, 25, 29, 30] 通过仔细搜索或匹配 引入 特定于 RS 的附加信息（地理信息、时间序列数据、音频数据等），并鼓励模型通过数据增强之外的其他信息来学习相似性。对比学习方法取得了很好的性能，但它们 默认将不同的图像作为负对，并且 RS 数据集中的不同图像经常包含同一类的实例。

在自然场景中，生成式自监督方法稳步普及。掩码图像建模 (MIM) [31, 32] 是一种应用生成模型的自监督学习方法。它旨在重建被掩蔽的像素并学习数据分布中的一般特征表示。

一方面，它避免了引入额外的信息，从而更容易利用大量数据。基础模型随着更多数据用于建模，对不同场景的适应性更强。
另一方面，它的目标是从原始图像重建像素级信号。在没有任何数据增强和负对的情况下，该模型也可以导出优越的特征表示。因此，生成式自监督方法更适合开发 RS 基础模型。

目前，大多数 MIM 方法都是 基于自然图像进行训练的 [31, 32]。与自然场景相比，RS图像存在以下难点：

大的分辨率和方向范围。受 RS 传感器的影响，图像具有多种空间分辨率。此外，与实例通常由于重力而具有固定方向的自然图像不同，RS 图像中的对象从鸟瞰角度具有较大的角度分布范围。因此，由于尺度和角度的多样性，同一物体在不同的RS图像中具有不同的特征。
许多密集和小的物体。大部分自然图像包含一些对象。例如，ImageNet 数据集平均每个图像包含少于 3 个对象实例 [33]。如图所示，RS图像通常又大又宽，覆盖数百公里。遥感影像中的小的物体较多，且通常分布较为密集，在一定程度上影响了目标级的解译精度。
复杂的背景。由于RS图像包含的场景比较大，除了感兴趣的物体外，图像还包含大量的背景信息，导致图像的信噪比较低。物体的边界和背景模糊，干扰了物体的分类。此外，遥感影像容易受到天气、光线、云雾等外部因素的干扰，影响成像质量。

基于上述差异，使用自然图像训练的生成式自监督模型在 RS 场景上表现不佳。因此，有必要设计一个适合RS数据的基础模型。

在本文中，提出了一个遥感基础模型框架RingMo，它由两部分组成：一个大规模的RS数据集 和一个适合多任务解译的基础模型训练方法。

有了更多的 RS 数据，基础模型可以学习更多的通用特征表示。为了覆盖具有复杂背景和大量目标的 RS 数据，本文在无监督条件下 收集了 200 万张图像的数据集。 RS 图像的分辨率范围从 0.1m 到 30m，覆盖六大洲的多个场景和物体，是从卫星和空中平台捕获的。

基于该数据集，本文设计了 RingMo 训练方法，将 MIM 方法应用于训练 RS 基础模型。该流程由一个用于提取隐特征表示的相对较重的编码器 和一个用于输出重建结果的解码器 组成。

现有的随机掩码策略往往会丢失 RS 图像中的密集和小目标。为了解决这个问题，本文根据 RS 场景和目标的属性设计了一种 Patch Incomplete Mask (PIMask) 策略。 RS目标在复杂的遥感场景中通过采用局部不完全掩码在保持整体掩码率的情况下进行保留。

本文使用 RingMo 在本文的数据集上进行训练以获得基础模型，并且训练的特征表示可以应用于广泛的 RS 下游任务。本文在四个 RS 任务上评估RingMo。使用 UCM [34]、AID [35]、NWPU-RESISC45 [36] 进行场景识别实验，使用 FAIR1M [4] 和 DIOR [5] 进行目标检测实验，使用 iSAID [37] 和 ISPRS Postdam 2 进行语义分割实验，和 LEVIR-CD [38] 用于变化检测实验。实验结果表明，本文的基础模型可以在八个数据集上实现最先进的 (SOTA) 性能。此外，由于本文的框架不需要手动标注任何标签，还讨论了不同数量的 RS 数据对基础模型训练的影响，增加 RS 数据的数量可以获得更好的实验结果。

Contributions：

1）本文提出了遥感领域的第一个生成自监督基础模型框架（RingMo）。该框架 利用大量 RS 数据来获得通用特征表示 并提高各种 RS 解译任务的准确性。
2）为了增强基础模型对RS数据的处理能力，本文设计了一种基于RS图像特性的自监督方法，改善了以前的掩码策略在复杂的RS场景中 可能忽略密集和小物体的情况。
3) 在没有任何人工监督的情况下，本文收集了一个包含 200 万张图像的 RS 数据集，这些图像是从卫星和航空平台捕获的，涵盖六大洲的不同物体和场景。这种包含大量不同范围的 RS 图像的数据集提高了基础模型对不同场景的适应性。
4) 在收集的数据集上使用 RingMo 训练方法推导出基础模型后，本文在四个典型的 RS 任务上对其进行微调。实验表明，本文的方法在八个下游数据集中实现了 SOTA，并验证了本文的 RS 基础模型在各种应用中的有效性和泛化性。

A. 遥感场景中的自监督方法：

与自然场景中的自监督学习（SSL）类似，遥感自监督模型通常使用大量未标记的 RS 数据来挖掘表示信息，这些信息可以转移到各种下游任务，包括分类、分割、目前，RS领域的SSL方法基本都是对比学习方法。

部分研究工作基于现有流行的对比学习方法（例如 MoCo [42-44]、SimCLR [26, 27]，和 CMC [45]）通过数据增强（例如随机裁剪、颜色失真和高斯模糊）生成正样本和负样本。 Zhang 等人 [46] 将最近的对比学习方法（如 MoCo）和具有几何增强的跨级实例组判别 相结合，以提高对无人机图像中稀有野生动物识别的识别。在 [47] 中，作者在不同的 RS 数据集上利用了 CMC。他们表明，对于 RS 图像中的下游任务分类，在 RS 数据上使用自监督预训练比在自然场景图像上使用监督预训练可以获得更好的结果。同样，在 CMC 的推动下，Keumgang 等人 [48] 通过联合使用电光 (EO) 图像、SAR 图像和标签掩码，提出了用于合成孔径雷达 (SAR) 语义分割的多模态表示。基于 SimCLR 框架，Heechul 等人 [49] 通过利用多输入图像并对其表示进行平均，提出了具有平滑表示的遥感对比自监督学习。

还有其他一些作品 引入了一些额外的信息，例如时空信息和地理知识来设计对比学习的正负样本。

例如，Oscar 等人 [29] 提出了季节对比（SeCo），以利用时间信息在不同时间点从同一位置获取图像对，这提供了一种自然增强来辅助对比自监督学习。 Kumar 等人 [25] 随着时间的推移利用空间对齐的图像来构建时间正对来设计对比学习中的其中务。 Peri 等人 [28] 提出了一种基于材料和纹理表示的自监督方法。 Li等人[24]提出了一种地理知识驱动的 RS图像表示学习技术（GeoKR），并构建了一个大规模的预训练数据集Levir-KR。 Dong等人[50]利用时间预测来处理变化检测任务。在 [51] 中，作者构建了一个带有语义掩码的双时间图像数据集，并提出了一种用于变化检测的语义解耦表示。

B. 计算机视觉中的生成式自监督方法

作为自监督学习的一个分支，生成自监督模型在计算机视觉中得到了广泛的研究。这些方法利用输入数据本身作为监督来学习表示并将它们应用于视觉领域的各种下游任务。最新一代的模型主要包括自回归 (AR) 模型、基于流的模型和自动编码 (AE) 模型。

AR 模型可以看作是“贝叶斯网络结构”，它 根据之前的数据预测新的数据样本。 PixelRNN [52] 和 PixelCNN [53] 分别使用 RNN 和 CNN 对图像进行 逐像素建模。在假设输入图像的像素之间存在依赖关系的情况下，它们通过调整上（左）像素来生成下（右）像素。
基于流的模型 旨在 从数据中估计复杂的高维密度。例如，NICE [54]、RealNVP [55] 和 Glow [56] 设计仿射变换来参数化数据分布。
AE 模型 通常涉及 生成隐表示的编码器和重建输入的解码器，由于它们的灵活性，它们更流行。去噪自动编码器（DAE）[57] 建议从损坏的信号中恢复原始信号，使表示对噪声具有鲁棒性。有一系列基于 DAE 的具有不同损坏的方法，例如，屏蔽像素 [58-60] 或移除颜色通道 [61]。

MIM 可以看作是一个 DAE 模型，它学习从掩码的输入图像中重建原始未损坏的图像。上下文编码器 [59] 对要通过卷积网络切成patch的图像进行编码，并输出完整的图像。受益于 Vision Transformer (ViT) [62] 的成功，它使以前为 NLP 泛化的转换器适应视觉任务，最近计算机视觉中的大多数自动编码方法都是使用 Transformers 进行的。 iGPT [60] 将原始图像的大小调整为低分辨率，并将它们直接转换为一维序列作为输入。可以在像素序列中预测下一个像素或掩码像素。继 NLP 中开发的 BERT 之后，BEiT [63] 提出将原始图像转换为视觉tokens，并通过随机屏蔽一些图像块，根据损坏的图像块恢复原始的离散标记。最近，He 等人提出了 MAE [31]，它可以掩盖输入图像的随机patch 并重建丢失的像素。 SimMIM [32] 设计了一种简单的掩码图像建模方法，并用可学习的掩码token向量替换掩码patches。遮盖住的和可见的tokens 作为输入一起输入，以通过编码器-解码器预测掩码patches的原始像素值，这也允许将 SimMIM 应用于 Swin Transformer。然而，据本文所知，基于 MIM 的自监督学习用于遥感基础模型的探索很少。受计算机视觉中生成式自监督模型的显著成果的启发，本文的工作致力于探索遥感领域的此类方法。

RingMo框架：

本文提出了一种遥感基础模型开发框架RingMo，旨在以生成的自监督学习方式从收集的数据集中获得训练的基础模型。在本节中，首先从统计信息、捕获源和场景分布方面介绍本文提出的数据集。然后简要介绍了应用 RingMo 训练方法的自监督学习。其中，将详细介绍掩码策略、模型架构和重构目标。

A. 数据集描述

本节为遥感领域的自监督学习任务 收集了一个大规模数据集。该数据集全面覆盖了各种遥感场景，具有多源、多时相、多实例的特点。数据集的细节将在后续内容中从统计信息、采集来源、场景分布三个方面进行说明。

1）统计信息：数据集中部分图像选自遥感领域公共数据集，如[4,5,37,40,64,65]，其他图像取自中国高分二号卫星。然后将这些不同平台捕获的图像 裁剪成448×448像素，得到2,096,640张具有多种分辨率和场景的图像。数据集的复杂特征可以使基础模型学习更稳健的特征表示，更适合和特定于遥感领域的下游任务。本文的数据集的描述以及与用于基础模型训练的其他数据集的比较如表一所示。本文的数据集图像数量最多，数据集的分辨率变化范围非常大，从 0.3m 到 30m .

2)捕获源：利用的图像从不同的传感器捕获，具有不同的成像参数。与其他现有的用于遥感基础模型训练任务的数据集相比，图像来自航空和卫星平台：卫星JL-1、卫星GF-2、甘芬卫星、GeoEye、WorldView、QuickBird、IKONOS、SPOT等。航拍图像和卫星图像之间存在差异，以使基础模型表现更好。卫星影像的拍摄角度往往是垂直的，而航空影像的拍摄角度则包含倾斜的情况。航空图像的图像质量通常高于卫星图像，但卫星图像提供的覆盖范围比航空图像更大。

3)场景分布：使用的图像覆盖了亚洲、欧洲、北美、南美、非洲和大洋洲六大洲的不同场景。在不同季节和时间拍摄的图像也包括在内。图像之间的照度水平也不同，比如光照强度、拍摄时间造成的差异、阴影造成的阴影等。上述所有情况都在下游任务中 引入了类内变化和类间相似，这对获得高度泛化的模型提出了严峻的挑战。因此，利用尽可能多的不同特征的图像进行预训练过程，学习更好的统一的特征表示。

B. 基础模型训练方法：

所提出的 RingMo 训练方法通过生成式自监督学习来学习遥感表示。这种建模是一种典型的自动编码方法，它从原始信号的部分观察中重建。为了避免丢失小物体的特征信息，本文设计了PIMask策略。给定输入图像，PIMask 实现区域选择和掩码生成。与其他自动编码器一样，本文的方法有一个编码器，可以提取掩码图像的隐表示，然后用于重建掩码区域的原始信号。学习到的编码器应该对各种光学遥感下游任务有用。在这项工作中，主要考虑了两种经典的视觉 Transformer 架构：ViT [62] 和 Swin Transformer [66]。重建目标指定要预测的原始信号的形式，L1回归损失 用于计算重建结果与像素值的差异。所提出的框架架构如图 3 所示。

1）PIMask策略：大多数MIM方法常用的掩码策略是随机掩码，如图4所示。随机选择一定比例的图像块，然后完全掩码。这种方法在自然图像中很有用。然而，遥感影像的应用存在一些问题。特殊的成像机制导致更复杂的背景和小尺度物体。使用 随机掩码策略很容易忽略许多完整的小目标。如图 4 右侧红色块所示，随机掩模策略完全丢失了掩码patches中的小目标信息，这影响了基础模型重建小目标，增加了图像重建的难度。因此，本文设计了一种名为 PIMask 的新掩码策略来解决这个问题。

如图 4 中左边的红色块所示，本文没有完全屏蔽图像块，而是在屏蔽块中随机保留一些像素。采用这种掩码策略，可以有效地保留小目标的一些像素信息。就像图 4 中的蓝色块一样，本文增加了掩码块的数量以保持总掩码比率不变。

此外，为了更好地利用这些保留像素，采用多层卷积实现 patch embedding。一些相关研究人员通过实验证明，将早期卷积层添加到 vision transformer 中可以帮助模型更好地学习图像特征[67]。具体来说，在卷积过程中，本文让卷积核只在每个patch内部进行计算，不破坏模型的mask约束。并且不同于传统的embedding结果，多层卷积后的所有token都有特征信息，进一步提高了encoder的学习效率。

PIMask 策略的数学计算过程如下所示。首先，本文将图像分割成许多不重叠的块的集合。

如公式1所示，本文以被掩蔽的patch的比例α 和 patch的总数len(Cpatches) 作为输入，通过RTG（Randomly Label Generator）函数 确定每个patch的mask标签。因此，输出 mtag 是一个一维向量，其中包括patches的所有掩码标签。

得到patchi的 mask标签mtag[i] 后，我们就可以判断patch是否被部分屏蔽了。如公式2所示，我们以mask inside ratio β 和 patch的维度 dim(patchi))为输入，通过RTG函数生成每个patch的mask张量PIMaski。如公式 3 所示，我们直接将 patchi 与 I - PIMaski相乘，其中 I 表示单位矩阵，× 表示逐元素相乘。

2) 模型架构：模型的主要组成部分包括编码器和解码器，其中编码器包括两个典型的视觉 Transformer：ViT [62] 和 Swin Transformer [66]。

本文将可见patches 和掩码patches 连同位置嵌入的投影一起馈送到编码器中。具体来说，ViT 接收转换后的token嵌入序列作为输入。与 BERT [68] 类似，ViT 预先为嵌入的token序列准备了一个可学习的类嵌入，旨在表示 Transformer 编码器输出的全局类。 ViT 使用标准的可学习一维位置嵌入。 Transformer 编码器包括交替的多层感知器和多头自注意力层。在每个部分之前使用分层模块和残差连接。 ViT 中特定于视觉的归纳偏差小于卷积神经网络 (CNN) 中的归纳偏差。

对于 Swin Transformer，它首先将图像裁剪成没有重叠的块。每个patches 都被视为一个“token”，其特征被设置为原始像素信息的聚合。投影层用于将每个patches 标记为随机维度（表示为 C）。patches token 上使用了几个指定的 Swin Transformer 块。这些块一起生成具有与经典 CNN 相同分辨率的分层表示。 Swin Transformer 是通过将 Transformer 块中的标准多头自注意力更改为基于移动窗口的模块来构建的，其他层保持不变。因此，Swin Transformer 可以方便地替换以前方法中的骨干网络来完成多项任务。

如上所述，本文分别选择了两种经典的视觉 Transformer 架构作为编码器。解码器仅用于图像重建的预训练。在本文中，尝试了线性层，它比编码器更浅更窄。

3）重建目标：

由于像素值在光学空间中是连续的，本文的方法通过回归预测掩码区域的原始像素来重建输入。损失函数计算重建图像和原始图像之间的 L1 距离：

其中 x, y ∈ R3HW ×1 表示原始像素值和重建像素值； Ω 是元素的数量； M 表示掩码像素的集合。与其他 MIM 方法 [32] 类似，RingMo只计算遮盖区域的损失。

A. 遥感基础模型

本文使用 RingMo 训练方法用本文收集的数据集训练遥感基础模型。为了验证遥感数据对基础模型的影响，本文使用大规模遥感数据以随机掩码策略训练基础模型，并评估不同数据量和训练epochs 的影响。此外，为了验证本文提出的创新方法，使用 PIMask 来训练基础模型。随后的实验表明，所提出的RS基础模型框架可以有效地在遥感图像上实现，更重要的是，它可以有效地提高各种下游解释任务的性能，而无需复杂的操作。

图 5：可视化了使用 PIMask 策略重建基础模型的图像。它表明，在遥感数据集上预训练的生成式自监督模型基本上是根据保留块的上下文信息重建被掩蔽的区域。此外，如图5所示，这些重建结果与原始图像略有不同，表明本文的模型 真正基于未掩蔽区域重建图像，而不是简单地记忆原始图像，并具有泛化能力。

在对基础模型进行预训练后，本文将特定任务的头附加到预训练的主干上，并对下游任务的参数进行微调，如图 3 所示。本文在遥感图像解译中的常见任务上验证了本文的基础模型，例如场景分类、目标检测、语义分割和变化检测。实验结果验证了本文在构建的遥感数据集上预训练的生成式自监督模型的有效性。使用所提出的 RingMo 框架，可以直接在其他遥感解译任务中利用 pre-training-then-fine-tuning 的范式。

B. 遥感场景分类

对于场景分类任务，本文使用线性分类器 作为任务头。具体来说，平均池化用于融合表示并将全局信息传递给分类器。类概率计算为 softmax 值。通过优化遥感基础模型和softmax分类器的参数，最大化标记数据的可能性。

RingMo 利用海量的遥感数据为下游微调提供更好的初始点，适合不同分辨率的场景分类任务。所有的 RingMo 结果都接近甚至优于之前一些 SOTA 方法的性能，这表明了本文方法的优越性。

与 ImageNet 上的预训练相比，所提出的 RingMo 可以提供对场景分类更实用的训练初始值。

结果表明，RingMo 可以帮助视觉模型更好地理解遥感场景，其性能优于许多专用模型，如表 2 所示。这证明即使是为自然图像分类而设计的深度网络，RingMo 也可以在不改变任何网络结构的情况下用于遥感场景分类任务。RingMo 增强了视觉方法的泛化能力，可以直接应用于遥感数据。

具有更多 epoch 的基础模型具有更好的表示能力。预训练时间越长，模型的泛化能力越好。由于预训练中的数据量巨大，短期的自监督学习很难保证学习到有效的参数。预训练时间的增加意味着模型对大规模遥感数据的理解逐渐加深。

当预训练数据量增加时，下游微调的模型准确率相应提高。这表明来自海量遥感数据的原始信息可以改善下游场景分类。实验结果还表明，RingMo 可以帮助场景分类任务的微调收敛性。

由于 PIMask 不会完全屏蔽每个patch，而是保留了一些小目标的信息，便于自监督学习。因此，对于包含大量小目标的遥感数据集，所提出的 PIMask 可以增强场景理解并提高分类性能。

C. 遥感目标检测：

基于遥感卫星携带的光学相机，从鸟瞰视角观察地物，通常具有规则的刚性几何结构。因此，这些类型的目标 通常利用定向边界框 (OBB) 来获得更精细的定位。遥感场景中还有其他种类的不规则几何对象，称为 组件对象（component objects）。由于它们的轮廓不规则，因此应用了水平边界框 (HBB)。它具有“局部不变和全局变形”的特点，给定位和识别带来了更多挑战。本文分别对遥感细粒度类别数据集（OBB）和由复杂组件对象组成的数据集（HBB）进行了比较和消融实验。

1）数据集介绍：在遥感细粒度类别数据集FAIR1M（定向目标检测任务）和包含复杂组件对象的DIOR数据集（水平目标检测任务）上进行了实验。

数据增强包括实现随机水平和垂直翻转。

基于 OBBDetection [114, 115] 的框架，本文构建了 FAIR1M 数据集的检测基线模型，命名为 OBB [98, 100]。该模型在第一阶段生成定向感兴趣区域（RoI），并在第二阶段进一步对齐过滤框。所有超参数设置保持默认值。本文还将 FPN [107] 模型用作 DIOR 数据集的基线。

3）与SOTA的比较：表III和表IV分别显示了在两个数据集上从基础模型微调后的遥感目标检测结果。

FAIR1M： 应用ISSP方法，模型的mAP略低于ISP方法。减少量为 0.15% mAP。具体来说，我们观察到，在 FAIR1M 数据集中难以区分的类别（A330、拖拉机、客船）上，ISSP 模型表现不佳。而当应用 RingMo 方法时，这些结果会变得更高，从而达到 SOTA 级别。

DIOR：在 DIOR 数据集上，ISP、ISSP 和 RingMo 的方法比较与 FAIR1M 上的结果相似。具体来说，从 ISSP 到 ISP 的 mAP 减少了 1.2%，这比 FAIR1M 数据集更明显。本文专注于 DIOR 数据集中复杂组件对象和小尺度对象类别的性能。我们观察到 ISSP 模型在 DIOR 数据集中的复杂复合体（机场、高尔夫球场、火车站）和小物体（飞机、轮船、车辆）中表现不佳。这些类别在 RingMo 下恢复甚至超过 ISP 下的性能。

ISSP 的实验结果在两个数据集上都不如 ISP。我们分析这可能是由于监督学习和生成式自监督学习之间的 特征表示建模的差异。与图像级建模的监督学习相比，生成式自监督学习实现了像素级建模。因此，可以从数据中得出更通用的特征表示。因此，同样在不同的数据域（遥感和自然场景）进行预训练，ISSP在一定程度上放大了数据域的差异，不如ISP方法。具体来说，它在需要局部归纳偏差和高级语义信息的难以区分、小规模和复杂的复合类别中更为明显。而当应用 RingMo 方法时，这些结果会变得更高，从而达到 SOTA 级别。可以得出结论，无论是局部归纳偏差还是高级语义信息，模型在应用RingMo后都取得了显著的提升。图 9 的可视化结果有力地表明了所提出的模型应用 RingMo 方法在遥感场景中的适应性以及强大的检测能力。

4) 消融研究：

本文还完成了对提出的 RingMo 方法的一系列消融研究。

首先，比较了根据不同数据量微调的模型。如表 III 和表 IV 所示，为训练添加的数据越多，模型的性能就越好。
其次，从 100 个 epoch 与 200 个 epoch 预训练的基础模型用于微调此任务。从更长的预训练时期中获得了更好的结果。
此外，实验结果表明，应用所提出的掩码策略的模型表现更好。

综上所述，本文在分析上述结果后得出几个结论。

1）RingMo 方法得益于 拥有更多的训练数据，展示了自监督方法强大的数据利用能力。
2）可以通过相对较长的训练迭代来增强通用的遥感表示能力。
3）遥感特定的设计可以进一步提高性能，特别是在遥感场景中检测极端尺度物体方面。

DISCUSSION：

在对上述四个下游任务的八个数据集进行实验比较的基础上，本文系统全面地分析了实验结果。

ISSP 的结果通常低于 ISP 方法的结果。本文认为这主要是由于两种方法的特征表示能力之间的学习差异造成的。与 ISP 相比，ISSP 为模型学习引入了更多的局部归纳偏差。换句话说，它的像素级建模使得模型更加关注数据中的通用特征表示。但由于域偏差问题，在自然场景中获得的 ISSP 权重可能会导致在遥感中的适应更加困难。

使用遥感数据训练的 RingMo 比使用自然场景图像训练的 ISSP 表现更好，甚至优于有监督训练的 ISP。它说明了遥感图像基础模型的有效性。在RingMo对应的消融实验中，模型性能可以随着数据量的增加和训练迭代次数的增加而进一步提升，包括创新的引入。进一步表明，有效利用更多的遥感数据可以获得更通用的特征表示，这有助于模型在下游任务中获得性能。

此外，在四个任务的比较中，本文观察到以下结果。 RingMo 在涉及像素级建模和目标定位的任务中优于 ISP。例如，在 LEVIR-CD 和 DIOR 等数据集上，RingMo 模型平均超过 ISP 模型 0.54F 1/0.7mAP。在场景分类等图像级别的分类任务中，RingMo 的结果与其他监督学习方法相似，甚至低于它们。我们分析，这主要是由于 RingMo 和监督学习方法之间的粒度差异。 RingMo 应用掩码图像建模来提高像素级特征编码和解码任务的性能。然而，监督学习方法采用的图像级分类与场景分类等任务相匹配。本文将进一步设计一个考虑图像级和像素级任务的问题的基础模型。

CONCLUSION：

在本文中，提出了一个遥感基础模型框架，包括大规模数据集和基础模型训练方法。首先，在没有人工监督的情况下开发了一个包含 200 万张遥感图像的数据集。这些图像是从卫星和航空平台捕获的，覆盖了世界上大部分的场景和物体，有助于提高基础模型对更多遥感场景的适应性。

此外，为了得到通用的 RS 特征表示，本文进一步提出了 RingMo MIM 方法，该方法增强了在复杂的遥感场景中容易忽略密集和小物体的问题。使用经过训练的基础模型来微调下游应用程序，在四个任务的八个数据集上实现了 SOTA 性能，证明了本文提出的框架的有效性。

未来，本文的目标是收集更多、形态更丰富的数据，并将本文的框架扩展到更多样化的下游应用，使基础模型获得更通用和本质的遥感特征表示。希望本文的工作能够激发更多的遥感研究人员将生成的自监督方法引入遥感领域。

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/你好赵伟/article/detail/311813