花生_TL007

这个屌丝很懒，什么也没留下！

热门标签

遥感大模型综述材料整理_vision-language models in remote sensing: current

作者：花生_TL007 | 2024-04-14 00:57:08

踩

vision-language models in remote sensing: current progress and future trends

《遥感大模型：进展与前瞻》

摘要

人工智能领域大语言模型和视觉基础模型的显著进展引发了学者们对遥感领域通用人工智能技术的关注，推动了遥感信息处理大模型研究的新范式。

遥感大模型也称为遥感预训练基础模型，是一种利用大量的未标注遥感图像来训练大规模深度学习模型的方法。
目的是提取遥感图像中的通用特征表示，进而提高遥感图像分析任务的性能、效率和通用性。

遥感大模型的研究涉及3个关键因素：

预训练数据集：能够随着数据的增加灵活扩大
模型参数量：能够随着计算资源的增加灵活扩大
预训练技术：是提升遥感大模型性能的关键因素

以预训练技术为主线，归纳分析了现有的三类遥感大模型：

有监督单模态预训练遥感大模型
无监督单模态预训练遥感大模型
视觉-文本联合多模态预训练遥感大模型

引言

在计算机视觉和自然语言处理领域，基于Transformer网络的视觉基础模型(如CLIP、Florence和BEiT等)和大语言模型(如GPT-3、OPT和T5等)在视觉和语言理解任务中表现出的强大泛化性，引发了学者们对遥感预训练基础模型的极大关注。

这些预训练基础模型的参数量非常巨大，因此也被称为遥感大模型。

模型参数量和预训练数据量的增加终究有上限，遥感预训练基础模型的本质是提取遥感图像中的通用特征表示，而非一味扩大模型参数规模。预训练技术成为提升遥感大模型性能的关键因素。

遥感图像与自然图像在样本成像角度和地物分布上存在较大差异，基于自然图像数据集的预训练权重限制了遥感预训练基础模型的性能。

现有的遥感视觉任务主要关注如何从图像中提取更鲁棒、强健的视觉特征来执行各种任务，忽视了利用多模态遥感数据对于地物关系的语义理解。

1 遥感大模型预训练技术

好的预训练技术能使遥感图像的高级抽象特征在多种下游任务中最大限度地提升性能。

1.1 有监督单模态预训练遥感大模型

有监督单模态预训练是指在有标签的大规模单一数据模态(如图像、文本、声音等)上进行预训练，以使模型在特定监督任务上具有更好的性能。

1.2 无监督单模态预训练遥感大模型

无监督单模态预训练是指在大规模单一数据模态上使用未标记的数据来预先训练模型，以学习数据的通用表示。

自监督预训练是无监督单模态预训练的一种重要代表方法，其目标是使模型能够更好地捕捉数据中的结构和模式，从而在后续的任务中具有更好的性能。

无监督单模态预训练技术还包括稀疏编码和自编码器。

根据自监督学习的框架和目标函数，可以将这些自监督单模态预训练方法分为

图像对比自监督学习
图像掩码建模自监督学习

1.2.1 图像对比自监督学习

遥感图像对比自监督学习是一种特征学习方法，利用单张遥感图像创建正样本和负样本对，通过将同类样本拉近，将不同类样本推远，以获得具有稳健性的特征表示。

在遥感领域使用对比自监督预训练方法能够增强模型在多种下游任务上的性能。

根据遥感图像正负样本对的构建方式，可以进一步将遥感图像对比自监督学习分为

实例级对比自监督学习
时间序列级对比自监督学习

1）实例级对比自监督学习

实例级对比自监督学习将相同类别图像的不同增强视角视为正样本，而不同类别图像的视角被视为负样本。

2）时间序列级对比自监督学习

时间序列级对比自监督学习进一步实现了对遥感预训练基础模型的促进作用，该类方法将在空间上相同但在时间上不同的样本视为正样本对。

1.2.2 图像掩码建模自监督学习

图像掩码自监督学习框架使用视觉Transformer的编码器-解码器结构来重建随机掩码的图像块来学习鲁棒的图像表征。

图像掩码自监督学习框架适用于大规模视觉模型，并且在加速模型训练的同时确保了模型的泛化性能。预训练基础模型不仅要关注预训练方法、数据集大小和模型参数量，还应该面向遥感图像多尺度、多粒度的特点进行更有效的结构设计。

1.3 视觉-文本联合多模态预训练遥感大模型

单模态遥感视觉基础模型主要关注视觉理解任务，而忽视了对象及其关系的语义理解。视觉语言模型不仅可以识别图像中的对象，还可以推断它们之间的关系，以及生成图像的自然语言描述，这使它们更适用于需要同时进行视觉和文本理解的任务。

根据多模态预训练是否需要融合图像-文本信息，将视觉-文本联合多模态预训练分为图文双流对比预训练和图文双流融合预训练。

1.3.1 图文双流对比预训练

图文双流对比预训练框架首次由OpenAI团队在对比语言-图像预训练(contrastive language-image pre-training，CLIP)模型中提出，该框架利用图像文本对比目标函数度量图像和文本之间的相似性和差异性，并建立图像和文本之间的联系。

在遥感领域，与遥感图像对应的精确文本描述往往难以获取，导致遥感领域中与图文双流对比预训练相关的研究工作相对较少。

RemoteCLIP将异构注释转换为基于Box-to-Caption和Mask-to-Box转换的统一图像-字幕数据格式，构建了一个大规模图像文本对预训练数据集。RemoteCLIP在构建的大规模数据集上利用CLIP框架进行图像文本对比学习后，其性能在场景识别、少样本分类、图像-文本检索以及遥感图像目标计数任务中均有较大提升。

1.3.2 图文双流融合预训练

图文双流融合预训练通过交叉注意力构建的融合模块来深度关联图像和文本特征，并使用多种目标函数度量图像和文本间的相似性。

尽管图文双流融合预训练模型在提升遥感图像文本理解任务和图像文本生成任务方面表现出一定的性能，但是该模型尚未进行充分的性能验证以适应下游的纯视觉任务。因此，视觉-文本联合遥感通用基础模型在单模态遥感任务和多模态遥感任务中的有效性还有待更加深入的研究。

2 遥感大模型未来展望

目前遥感大模型面对数据源的多样性、预训练大模型的高效性、泛化性与可靠性等难题依然存在挑战。

2.1 结合遥感领域知识与物理约束

目前遥感大模型在表征能力和推理能力上表现出强大性能，但是在高效部署及可解释性等方面仍存在研究空白。由于数据驱动模型的黑匣子特性，研究人员不仅难以合理解释遥感大模型的决策，也不能通过可解释性原则设计更高效、鲁棒的遥感大模型。大、小模型协同表达理论框架通常利用知识图谱等方式构建特定领域的结构化知识来提升大模型的能力和可解释性。通过将地物的形状、纹理等人工特征以及地物光谱特性等遥感特定先验信息构建多重知识图谱，进一步约束遥感领域小模型的自由度，是实现遥感大模型在垂直领域高效部署、提升遥感大模型可解释性的重要方向之一。

2.2 提高遥感大模型的数据泛化性

遥感领域的训练-测试图像分布的差异主要来源于成像传感器参数、成像气候条件以及地形地貌的多样性等多方面。

视觉-语言大模型提示学习通过找到最优的提示而不是微调整个视觉-语言大模型，以使视觉-语言大模型高效地适应下游任务场景，现有的相关研究可以分为:

文本提示学习
视觉提示学习
文本-视觉提示学习

除此之外，特征自适应方法也被广泛探索，核心思想是通过使用一个额外的轻量级特征适配器来微调大模型。由于提示学习方法和特征自适应方法简单有效的特性，将其应用在遥感领域来提高遥感预训练大模型的泛化性将是有前景的方向。

2.3 扩展遥感大模型的应用场景

目前，遥感多模态大型模型主要采用了CLIP或者BLIP架构进行训练，这些模型使用了数十亿规模的遥感图像文本对进行训练，在学习遥感图像的视觉语义特征的同时也学习了与这些视觉特征良好对齐的文本嵌入。

由于视觉-语言多模态大模型通常是为图像级别表示设计的架构进行预训练的，对于一些小尺度的任务(如目标检测、像素分割)并不适用。

知识蒸馏主要聚焦于将图像级别的知识转移到区域或像素级别的任务，让大模型在任意开放环境的目标检测和语义分割等任务上也可以发挥较好的效果。这类方法通常将预训练的视觉-语言模型作为教师模型，把预训练的视觉-语言模型学习到的知识蒸馏到检测或分割模型中，上述过程可以通过提示学习、知识对齐和伪标签使用等技术实现。通过知识蒸馏技术高效挖掘遥感大型模型的内在知识，对于进一步扩展遥感大模型的应用场景便显得尤为迫切。

2.4 降低遥感大模型的数据成本

当前遥感大模型的训练过程需要大量的训练数据支撑，因此，更加高效经济的方式来采集或生成高质量的多模态遥感训练数据便成为一个重要的研究方向。

扩散模型因其能够生成更真实的高质量图像而在计算机视觉领域受到大量关注。扩散模型在前向阶段对图像逐步施加噪声，直至图像被破坏变成完全的高斯噪声，然后在逆向阶段学习从高斯噪声还原为原始图像过程。

通过使用扩散模型基于现有文本描述生成遥感图像，这样就能够利用生成的合成数据有效地扩大数据集规模，帮助提高遥感大模型的鲁棒性和泛化能力。此外，通过将风格转移或域适应等技术与遥感图像的特点相结合，还可以进一步将扩散模型进行适应性改进，生成更加多样化且贴近真实应用需求的合成遥感图像，支持遥感大模型的训练过程。

《遥感基础模型发展综述与未来设想》

摘要

基础模型是一种通用可泛化的解决方案，目前有大量工作已利用遥感单时相或多时相数据在感知识别和认知预测的部分任务上取得显著成果。

1 引言

基于海量数据的“基础模型+下游任务”模式最近在遥感领域备受关注，已成为一种可行的通用解决方案。基础模型利用大规模无标签遥感数据进行训练，以获取数据中的通用泛化特性，再通过增量学习快速迁移，适应多种场景或任务。在多项工作中展示了该模式的有效性。

但这些遥感基础模型主要着重于分析目标环境中已发生或已具备的信息(感知识别)方面，一般采用的是单时相数据，较少利用遥感时序数据。

基于多时相数据的遥感基础模型，通过学习多时相数据中的时间特征，提升土地覆盖、作物等时序分类精度，但是依旧侧重于感知识别类方向，无法支撑气象预报、交通预测、生态演化等需要预测目标环境未来状态信息(认知预测)的任务。

然而针对气象相关任务的模型无法适用于遥感领域其他预测方向(森林退化预测、舰船轨迹预测、河道变迁预测等)。

本文提出新一代遥感通用预测基础模型的设想，通过学习天/临/空/地多源异构多时相数据规律，获取稳定泛化的时序通用特征，以支持多空间尺度、多时间尺度的认知预测任务。

2 遥感基础模型

本文按照使用的数据(单时相/多时相)和应用的任务类型(感知识别/认知预测)，将现有遥感基础模型分为三类：

基于单时相数据的感知识别基础模型
基于多时相数据的感知识别基础模型
基于多时相数据的认知预测基础模型

2.1 基于单时相数据的感知识别基础模型

与自然场景类似，遥感领域的基础模型大多采用自监督学习方式，基于大量未标记的遥感单时相数据，挖掘通用表征信息，并迁移到分类、检测、分割、变化检测等感知识别类下游任务中。

本文根据采用的自监督学习方法的不同，将现有基于单时相数据的感知识别基础模型分为：

基于对比式学习的基础模型
基于生成式学习的基础模型

2.1.1 基于对比式学习的基础模型

部分遥感基础模型基于对比学习方法，通过数据增强产生多个样本，再利用对比损失自监督学习通用特征。

2.1.2 基于生成式学习的基础模型

随着基于Transformer的生成式学习方法在计算机视觉领域基础模型方面取得巨大成功，越来越多遥感领域的基础模型使用生成式学习，取得了较好的效果。

2.2 基于多时相数据的感知识别基础模型

针对同一地理区域连续获取的数据可转化为时序遥感数据，此类数据包含丰富的地表状态和动态演变信息，常用来对局部或大范围的地表覆盖进行研究。

自监督学习方法常被用于时序遥感数据训练，并应用于土地覆盖、作物等细粒度分类任务中。与此同时，基于多时相数据的感知识别基础模型不断扩展应用与其他下游任务。

2.3 基于多时相数据的认知预测基础模型

认知预测基础模型大多服务于气象预报应用，通过挖掘一定时空范围内相关气象要素的时空动态特征，了解气象要素变化规律，实现气象预测。

2.4 现有遥感基础模型的局限

近年来，遥感基础模型发展迅速，在众多应用任务中展示了显著效果，但在认知预测方面还处于起步阶段，在数据、方法、任务上还存在一些局限：

数据方面：多时相数据的应用较为局限，目前只包含了从卫星平台获取的时序图像和气象数据，其他平台和模态的数据没有被充分利用。
方法方面：针对时序认知预测的遥感基础模型大多采用Transformer架构，Transformer受限于输入长度问题，难以扩展到遥感大图中。图网络虽然可以建模多尺度关系，但是训练一个大规模图网络难以收敛，且容易过平滑。遥感认知预测任务一般需要观察大场景中多个目标间的关联关系，且多时相数据体量大，模型训练困难。未有基础模型根据遥感特点突破常见模型架构。
应用方面：遥感时序认知预测应用广泛，包含多样场景、多类任务，然而目前遥感预测基础模型局限于气象领域，只能泛化到风速、温度、湿度、热带气旋等方面，缺少通用预测基础模型，无法适应多样场景和多种任务。

3 面向多域异构多时相数据的新一代通用预测基础模型

3.1 核心思路

构建面向遥感多时相数据的新一代通用预测基础模型，共享学习多域异构多时相数据，支持多空间尺度、多时间尺度的预测任务。

数据方面：涵盖天/临/空/地多平台、轨迹点/时序图像/视频/气象数据等多类型、可见光/SAR/多光谱等多模态、厘米级到百米级多分辨率的遥感多时相数据。
方法方面：结合图网络和Transformer模型的优势，设计基础模型全新架构，具备对遥感大场景中多目标交互的长时序稳定预测能力，同时扩大模型容量，提升泛化效果。
应用方面：通用预测基础模型可应用到多空间尺度(目标级、要素级、区域级)、多时间尺度(近实时、小时级、长时序)的多样化认知预测任务中。

3.2 探索性方向

新一代遥感通用预测基础模型的核心是打通多域异构多时相数据输入及多时间/空间尺度任务输出的信息通路，通过提取稳定泛化的时序超像素特征，实现对未来状态的精准认知预测。

基于以上实现目的，本文提出四个探索性方向：

多域时序数据表征
稳定规律特征提取
目标环境交互影响建模
多任务互促推理

3.2.1 多域时序数据表征

为了在遥感领域实现通用认知预测的目的，需要兼容多域异构多时相数据，但这些数据在时间采样间隔、空间分辨率、数据维度等多方面均有显著差异。

时间采样间隔上：普通视频的帧率为24帧每秒，即每帧跨度约0.04秒；而大部分卫星受限于重访周期、云层干扰等原因，获得清晰数据的时间跨度以小时/天为计量单位。

通过数据相邻帧的相似度衡量时序冗余度，并基于此为时序冗余度高的数据选取更高的掩码比率，使得模型能够处理不同时间间隔的数据，并具备对不同时间尺度数据的时空预测能力。

空间分辨率上：从厘米级的无人机数据到分辨率数米的卫星数据，其囊括的范围也从几百平方米跨越到全球尺度。

采用金字塔结构进行空间多尺度特征提取。通过图像金字塔结构统一不同分辨率的数据特征到同一尺度，达到不同分辨率数据的统一处理。

数据维度上：输入多时相数据的形态各异，如一维轨迹、二维气象数据、三维时序图像等不同维度的数据。

使用不同模态专家学习一维、二维、三维数据独有的特征，再使用“掩码预测”方式统一不同数据的训练策略，使得模型的训练过程更加简单高效。

3.2.2 时序超像素引导的稳定特征提取

时序预测涉及在空间和时间维度上对未知系统状态的预测，需要对各种变量间的时空依赖进行建模。目标与环境的行为活动、变化过程遵守着显性或隐性的规律，以往传统模型只能基于显性规律人工建模物理方程，因此面临多重挑战。

遥感场景中的目标及环境变化更加复杂多变，其时序变化遵循多重规律，并且许多为隐形规律，难以通过显式的方程进行建模，因此传统预测模型难以从复杂多变的表象中挖掘隐藏在内部的隐性规律，获取遥感数据中的稳定特征。

数据驱动的深度学习方法在一定程度上解决了复杂场景中高维、非线性规律、隐变量的拟合问题，然而基于单一数据源的预测基础模型只能实现单方面任务的认知，其所存储的稳定特征都是有限的，难以提取复杂场景下海量变化要素的规律特征，无法完成多样化预测任务。

针对以上问题，文本提出时序超像素概念。

时序超像素定义为：在复杂变化场景中表现出稳定规律且具有关联约束的时序像素特征集合。虽然像素在变化，但变化规律是稳定的，时序超像素是可通过函数建模的时序像素集。

通用预测基础模型需要从复杂、随机的变化中学习稳定和关联的变化规律，获取时序超像素特征，并用其进行预测。通过多维大数据+通用基础模型的模式可提取稳定的超像素特征，大量时序超像素特征被提取和存储到基础模型的网络中，由此实现多样化任务的精准预测。同时，现有基础模型通常缺少预测的不确定性建模，可利用时序超像素整合数据驱动和物理模型驱动方法促进可解释性，降低预测误差，提高预测准确率。

3.2.3 目标环境交互影响建模

在遥感数据中目标的行为活动规律预测是人们关注的重点之一，目标的行为活动和时序变化除了受到物理定律的约束之外，还会受到目标间、目标与环境间的交互影响。

目标间在时间维度上存在相互依存的关系，使得模型在捕获长期依赖关系时面临与真实关联偏移逐渐扩大的情况，使得演化计算结果随时序的延长而误差逐渐增大。此外目标受到周围地形、天气等变化环境的影响，目标行为表现出突发性强、行动难追踪、交互变化快等特点，导致目标行为具有随机性，在此情况下长时序预测结果会产生较大误差。

针对上述问题，本文考虑综合利用图网络和Transformer增强目标-目标、目标-环境间的多样化信息交互能力。

利用图网络的谱性质设计算法对复杂网络中的关联关系进行较准确的挖掘，进而嵌入Transformer架构实现大规模网络训练，可考虑两方面的结合方式。一方面是在位置嵌入基础上，引入图网络的拓扑结构，以衡量节点间的关联关系。另一方面在Transformer的多头注意力基础上，加入图网络节点间特征和连接节点的边特征的结构信息修正注意力分数。在此基础上，本文还考虑对图网络与Transformer结合的方式进行拓展，提出超图Transformer结构。超图与简单图不同，对于一个简单图，其每条边均与两个顶点相关联，即每条边的度都被限制为2。而超图则允许每一条边的度为任何非负整数，因此超图可以处理多元关系和高阶关系。遥感场景中目标-目标、目标-环境间的相互关系是多元的，超图能够更好地建模这种多对多的关系，在目标环境交互预测中表现出更好的性能。

3.2.4 异构预测任务互促推理

遥感时序预测应用包含了目标轨迹预测、要素演化预测、数值趋势预测等任务，各任务间差异大，具有不同时间尺度、不同空间尺度的特点。当前遥感预测基础模型都是针对气象预测单一应用场景的模型，无法支撑对跨场景多任务复杂情况进行分析和预测。此外，现有方法往往忽略对预测任务间特征关系的显式建模，任务间特征差异明显，梯度竞争严重，导致多任务处理能力受限，尤其是在序列化任务流中，存在严重的灾难性遗忘问题。

本文提出的面向时序多任务的通用预测基础模型需要增强任务间的关系，优化网络持续扩展策略，引导模型动态更新过程中的网络参数更新方向。通过对任务特征关系的建模，利用任务的互补信息实现相互促进。通过适当的训练，深度神经网络中由低到高的隐层充当着复杂程度不断增加的特征变换，这些变换共享不同任务中共有的隐藏特征。尽管对数域的线性分类器对不同的任务在必要时可以分开，但特征转换任然可以在跨任务之间进行共享。具体来说，可先将数据特征映射到同一个向量空间创建一个联合的数据嵌入空间，使得多个任务可以共享特征空间中的特征，实现任务间共性和差异的显式建模，提高多任务推理预测精度。

《Brain Inspired Remote Sensing Foundation Models and Open Problems A Comprehensive Survey》

Abstract

基础模型（FM）因其在下游任务中的显著传递性能而备受关注。通常，它在大型数据集上进行任务无关的预训练，并可以通过微调有效地适应各种下游应用。尽管FM在语言和其他领域得到了广泛的探索，但其在遥感方面的潜力也开始吸引学术界的兴趣。然而，目前仍然缺乏对这些模型在遥感任务上的综合研究和性能比较。

1 Introduction

在广泛的数据上训练的模型可以适应广泛的下游任务。这些模型被称为基础模型（FM），以强调其关键的中心但不完整的特征。
与为特定任务或领域设计的模型不同，FM是一种新的范式，可以适应许多不同的任务和领域。FMs的主要特点可以概括为三个方面：

数据和模型大小：FM是在大量未标记或弱标记的数据上训练的，如文本、图像、音频或视频，这些数据涵盖了广泛的主题和领域。
学习策略：FM使用自监督或半监督学习策略从数据中学习，无需人工监督或少量人工指导。许多自监督学习被用于预训练，包括对比学习、生成掩膜图像建模和多模式对比学习。
适应性：FM可以通过添加少量特定于任务的数据或参数来适应或微调到各种下游任务或领域。

由于遥感数据的复杂性和对专业知识的要求，标记好的遥感数据很少，FM的预训练方法可以挖掘遥感数据的价值，并能够利用大量未标记的数据。

通过使用大量的光学图像对典型的遥感基础模型（RSFM）进行了预训练，验证了在遥感领域中训练基础模型的可行性。此外，学者们还考虑了多光谱图像、时间序列图像和地理因素，以建立更稳健的遥感模型。

遥感数据的规模与模型之间仍然存在明显差距。下表总结了自然域和RS域中FM的基本信息，强调了数据集大小和模型参数的差异。

遥感基础模型通常依赖于数据驱动的方法，从有限的遥感数据集中训练大规模参数，而自然基础模型有益于更大的数据集。

除了模型的规模之外，大多数遥感基础模型遵循自然基础模型的性质特征。已经证明，自然基础模型具有脆弱(brittle)、不可改变的结构(unchangeable structures)。基于模型的生成容易造成误导(hallucinate unintended results)。这些不稳定的结果限制了基础模型在遥感领域的应用，遥感领域需要高精度和鲁棒性来保证安全性。

为了弥补这一部分差距，大脑启发的遥感基础模型将是一个新的潜在研究方向。在这篇文章中，从大脑特征中获得了见解，提出了一个受大脑启发的遥感基础模型框架。在遥感的背景下探索大脑启发的算法具有巨大的前景，并为该领域的未来研究和进步提供了令人兴奋的机会。

本文研究了当前遥感基础模型的进展，如下图所示。

2 Key Technology of FMs

基础模型的关键技术包括模型结构、学习算法和微调。

2.1 Transformer

Transformer是一种基于自注意力机制的神经网络模型，经常用于自然语言处理任务。由于语言的非局部性和自然关系，这种长期的自我关注行为使Transformer变成一种有效工具。

Transformer的主要思想是通过自注意力机制来计算上下文相关的表示。传统循环神经网络RNN的卷积层在处理长序列数据时存在一些困难。Transformer模型的整体网络结构由注意力机制组成，放弃了传统的卷积模式，通过计算每个单词和所有其他单词之间的相关性来获取上下文信息，从而避免了传统模型的问题。

Transformer的核心部件包括多头自注意力机制和前向反馈网络。在多头自注意力机制中，输入文本序列将被拆分为多个向量。然后，将遵循一系列线性变换、注意力计算和串联操作来生成输出向量。该输出向量包含输入序列的每个位置信息，并且每个位置处的信息被同等地考虑。因此，与循环神经网络RNN相比，Transformer更适合处理长序列文本。

2.2 Self-Supervised Learning

自监督学习在训练基础模型方面十分重要。许多先进的基础模型在预训练阶段使用自监督学习。在预训练阶段允许基础模型获得丰富的特征和表示，然后使用标记的数据对特定的下游任务进行微调。

自监督学习是一种无监督学习形式，旨在从大量未标记的数据中提取有用且可推广的特征表示，用于下游任务。与监督学习不同的是其受到标记数据可用性的限制。相反，自监督学习的方法利用“半自动”过程直接从数据本身获取“标签”，节省了大量人力和时间成本。

自监督学习基于未标记的输入定义了一个代理任务(pretext task)，以生成描述性和可解释的表示。代理任务是预训练阶段预先设计的任务，通过输入未标记的数据来学习目标函数。通常，代理任务可以是基于预测、基于上下文、基于组织生成的，并且监控信号是从数据本身生成的。在代理任务上训练后，学习到的表示作为初始权重转移到下游任务，以实现其预期目标。

2.3 Parameter-Efficient Tuning for FMs

微调是将预训练的模型应用于下游任务的关键方法。然而，它涉及到更新整个模型和每个任务模型的参数。对大型调频台进行微调在计算资源和存储方面提出了重大挑战。为了解决这一问题，已经探索并实施了参数有效微调技术。参数有效微调技术的主要目标是通过最小化微调参数的数量和降低计算复杂性来提高预训练模型在新任务上的性能。这反过来又降低了与大型预训练模型相关的训练成本。在大多数情况下，参数有效微调技术只需要在模型中添加大量的参数，以便于其在下游任务中的应用。与完全微调相比，这些技术实现了相当的精度。

Prompt Tuning：Prompt Tuning的关键思想是通过设计高质量的提示语，来影响生成模型的输出。这些提示语可以是问题形式的，也可以是带有限制的指示语句。在微调过程中，模型接收到输入之后，首先会根据提示语的内容来生成中间表示，然后再根据这些表示来生成输出。
Adapter Tuning：适配器是一组小型参数层，通过连接基础模型的输入和输出来实现。在微调过程中，适配器层被添加到基础模型中，然后只有适配器层的参数会被更新，基础模型的参数保持不变。
LoRA（Layer-wise Relevance Adaptive Fine-tuning）：LoRA的核心思想是根据每一层在目标任务中的重要性，为每一层分配不同的重要性权重。这些权重用于控制每一层微调过程中的更新幅度。具体地，LoRA通过计算每一层梯度与目标任务有关的相关性，来为每一层分配权重。相关性越高，该层的权重就越大，更新幅度就越大。

3 Development of FMs

3.1 Language FM

语言基础模型，也称为大型语言模型，近年来引起了人们的极大关注。这些模型利用大量文本进行无监督训练，并在文本表示和理解方面表现出色。表总结了一些值得注意的语言基础模型。

3.2 Vision FM

计算机视觉领域也从语言基础模型的构建中汲取灵感，对大参数基础模型进行了研究。表总结了一些具有代表性的视觉基础模型。

视觉FMs的探索可以分为三个主要方面：

训练方法
参数数量
任务

3.3 Vision-Language FM

在目前的形势下，基础模型已经发展到不仅仅包括深度模型；他们现在专注于利用大量的数据和计算能力来解决各种各样的问题。目标是使用能够处理多种模式和任务的统一模型。因此，人们越来越重视训练视觉-语言模型。表总结了一些具有代表性的视觉-语言基础模型。

这些模型都建立在大规模训练数据和自我监督方法的基础上，利用未标记的多模式的潜力，通过视觉和语言来训练FM。因此，这些模型可以有效地执行涉及视觉和语言处理的广泛任务。

3.4 RS Foundation Model

自然图像基础模型的研究取得了重大进展，遥感领域也在这方面受到了极大的关注。然而，由于自然图像和遥感图像之间固有的域间隙，将预训练的模型从自然图像直接应用于遥感图像往往会导致次优结果。为了应对这一挑战，遥感基础模型的构建可以分为两种方法：

从头开始训练
使用预训练的自然图像模型进行连续训练

3.4.1 Training From Scratch

从头开始的训练方法包括收集大量的遥感图像，并使用自然图像基础模型中使用的训练方法。

3.4.2 Continuous Training

虽然从头开始的训练推动了遥感基础模型的发展，但对于大型模型来说，这可能是资源密集型和挑战性的。因此，一些研究人员将注意力转向了连续训练方法，该方法利用了现有的预训练的自然图像基础模型。这些连续训练方法提供了一种经济高效的方式来利用遥感领域中现有的预训练模型。

4 Applications of RSFM

遥感基础模型应用分为三种类型：分类任务、定位任务和理解任务。分类任务在图像级别或像素级别上将图像分类为特定类别。定位任务使用boxes or maks定位目标。理解和要求涉及到语义的过程。

4.1 Classification Task

场景分类
语义分割
变化检测

4.2 Location Task

目标检测
运动物体检测
目标跟踪

4.3 Understanding Task

遥感解译中的解译任务包括涉及语言描述的任务，包括视觉基础（VG）、图像字幕和视觉问答（VQA）。x础任务

图像字幕
视觉问答

5 Exploration of The Effectiveness of Existing FMs on Various RS Applications

5.1 Scene Classification

当比较所有基础模型在场景分类任务中的表现时，自然基础模型始终优于当前的遥感基础模型。大规模预训练的自然基础模型在遥感领域仍然具有高度竞争力，可以利用自然基础模型在效率和性能方面加强遥感基础模型的发展。

5.2 Semantic Segmentation

语义分割，也称为RS中的土地覆盖分类，与场景分类不同，因为它涉及在像素级别上对图像的像素进行分类。

通过比较所有基础模型，自然基础模型在性能方面优于当前的遥感基础模型。可归于两个主要因素：

当前的遥感基础模型预训练的数据集并没有全面覆盖所有的遥感数据集，则这些模型在局部表示分割中没有显著优势。
当前的基础模型主要使用ViT作为底层结构，也影响其性能。

因此，设计遥感基础模型不仅需要一个非常适合的预训练算法，还需要一个优秀的多尺度结构，使模型能够满足各种应用的需求。

5.3 Object Detection

物体检测是遥感解释中的一项关键任务，因为它需要模型处理具有显著尺寸变化的物体的能力，同时还需要执行准确的分类。

本节中，进行的实验集中在三个重要方面：全局表示（场景分类）、局部表示（语义分割）和目标定位（对象检测）。从实验中发现，用自然图像训练的基础模型表现出与为遥感开发的模型相当的性能。在实验中，没有一个基础模型能在所有方面都表现良好，这强调了进一步开发基础模型以适应遥感领域广泛应用的必要性。

6 Brain-Inspired RSFM

6.1 Overall Architecture of the Brain-Inspired RSFM

基础模型旨在以统一的方法处理多种模式和任务。然而，当前缺乏可以有效处理多模态数据的遥感基础模型。这些现有的基于数据驱动的基础模型在数据大小、模型结构和学习策略方面仍然存在局限性。

为了应对这些挑战，我们提出了一个受大脑启发的遥感基础模型框架，如图所示。该框架工作旨在集成遥感中的多模式数据，如图像、视频、点云和文本，并将它们统一表示用于数据驱动学习。此外，它将先验知识边缘，如对象光谱特征、道路网络信息以及地形和地理位置，纳入知识驱动学习的模型中。通过结合数据驱动和知识驱动的方法，我们希望提高模型的性能和适应性。更重要的是，受大脑启发的特性可以指导我们构建模型、表示数据、构建学习算法和处理推理。

6.2 Basic Properties of Brain-Inspired RSFM

Structure

人类大脑由860亿个神经元组成，通过称为突触的高度结构化连接进行通信。神经元通过离散的动作电位或“尖峰（spiking）”以稀疏和异步的方式交换信息。为了模拟人脑的这一基本特征，引入了尖峰神经网络（SNN），如图所示。

SNN在深度学习中已经被研究了很多。将注意力机制整合到百万规模的SNN中，首次实现了与传统人工神经网络相当的性能，理论能量效率使相同结构人工神经网络的31.8倍。因此，受大脑启发的SNN具有许多潜力。对于大规模基础模型，SNN具有更大潜力。然而在当前的模型中，神经元多样性和几何约束尚未得到研究。该模型对不同神经元和几何约束的功能设计与动力学研究相结合，将有助于提高基本模型的鲁棒性。

Perception

感知是人类从外部世界获取信息的过程。对于大脑来说，这些输入信息包括视觉、听觉、触觉和其他感官数据。类似地，在遥感中，不同的数据，如可见光和SAR，提供多模式信息。为了设计有效的基础模型，我们需要模仿人脑的特征，如稀疏性、选择性和方向性，以提高模型感知信息的效率。稀疏性、方向性和选择性在深度学习中的应用可以产生更高效、更有效的神经网络，使其能够更好地从数据中进行归纳和学习。

稀疏性：大脑呈现出层次分明、稀疏且周期性的结构。稀疏性在生物大脑中起着至关重要的作用，因为它只允许使用少量激活的神经元或显著性来表示和处理信息。这种稀疏性是神经编码的一种特性，它提高了大脑的效率、鲁棒性和灵活性。研究表明，大脑皮层V1中的稀疏表示可能满足信息论的最优性标准。当我们移动到更高水平的神经元时，感受野变得更大，稀疏性变得更强。最近的研究也表明，神经回路是以稀疏而有效的方式组织的。更高水平的智力与更直接的信息处理和推理过程中更少的皮层活动有关，这突出了稀疏性在大脑有效感知中的重要性。

选择性：通常被称为注意力机制，是大脑专注于特定对象和控制注意力区域能力的一个关键特征。大脑同时接收大量信息，但不能同等优先地处理这些信息。因此，它采用选择性注意力来过滤信息并对其进行优先级排序。选择性注意力广泛存在于人类视觉系统中，受自下而上和自上而下机制的调节。自下而上的选择性对应于来自环境的显著刺激，例如目标亮度或运动的变化。另一方面，自上而下的选择性允许人类基于当前的行为和意图处理相关信息，而忽略无关信息，形成注意力和认知之间的紧密结合。

方向性：方向性是大脑感知自身位置和方向的能力。大脑有提供方位和位置信息的方位角和斜角细胞。当头部面向特定方向时，相应的方向单元被激活。在人类大脑的内侧颞叶中发现了以自我为中心的空间定向的神经编码模式，通过编码到参考点的距离来支持自我中心空间的矢量表示。在基础模型中构建多尺度定向网络符合感知中定向性的生物学基础和意义。

Learning

学习使人类获得记忆、知识和时间技能的基本过程。从神经科学的角度来看，神经元具有可塑性，使它们能够通过修改连接和权重来学习。有三种受大脑启发的学习模式：Hebbian学习、纠错学习和竞争学习。以反向传播的纠错学习为代表的学习方法在特定任务中具有优异的性能。因此，它在当前的模型学习中占据了主流地位。但它的监督学习与大脑的学习方式仍相去甚远。

Hebbian学习：1949年，Hebbian提出了一个假设：“一起发射的细胞连接在一起。”这意味着当细胞的轴突足够近，可以激发另一个细胞，或者反复或持续地参与发射时，这两个细胞之间的连接重量会增加。受这一假设的启发，基于相关性的学习规则通常被称为Hebbian学习。Hebbian学习是一种无监督学习形式，因为它不依赖于外部反馈或错误信号。相反，它捕捉输入和输出之间的统计相关性，形成联想记忆。
纠错学习：纠错学习遵循神经元应该从错误中学习的原则。在这种形式的学习中，两个神经元之间的连接权重是基于实际输出和期望输出之间的差（即误差）来调整的。纠错学习是一种有监督的学习形式，因为它需要老师或目标提供所需的输出。通过最小化误差，这种学习机制提高了网络的性能。与纠错学习一起使用的最流行的学习算法是反向传播算法。通过设置目标损失，可以在神经网络中反向传播梯度，并更新权重。

竞争性学习：竞争性学习的原理是神经元应该竞争激活。一层中只有少数神经元被允许同时活动，而其他神经元则被抑制。输入和活动神经元之间的连接权重增强，而输入和非活动神经元之间连接的权重减弱。与Hebbian学习类似，竞争性学习不受监督，不依赖外部反馈。它能够发现输入数据中的特征或聚类，从而形成稀疏表示。激活学习是一种竞争性学习。它在神经元内部和神经元之间注入竞争，并显示出从少量输入模式中学习大量局部特征的能力。

Cognition

认知是指人类获取知识、运用知识和处理信息的过程，是人类最基本的心理过程。人类大脑接收来自外部世界的信息输入，对其进行处理，将其转化为内部心理活动，然后相应地控制行动。

记忆：记忆是人类解决复杂问题能力的基础。人类大脑可以对过去的经历进行编码和存储，形成记忆，并在需要时进行搜索和检索。Engram细胞是大脑形成记忆的基本证据，为记忆的出现提供了必要的条件。根据它们的差异和行为，记忆可以分为短期记忆和长期记忆。

遗忘：是记忆的相反过程。遗忘发生的原因不同，发生在记忆形成、存储和检索的不同阶段。目前已知的遗忘机制包括被动遗忘和主动遗忘。

推理：作为一个复杂的智能系统，大脑的因果推理能力是其智能的主要表现之一。当大脑处理多传感器信息时，它表现出做出因果推断的能力。特别是，在来自多个传感器的信息不同的情况下，大脑能够推断信号是来自同一来源还是独立来源，并且不会对不太可能来自同一源的信号进行积分。

记忆和遗忘在认知过程中起着重要作用。记忆可以帮助模型形成知识，而遗忘可以清除不必要的信息。在当前的时间序列建模中，大量提出了基于记忆的模型。此外，推理也受到了广泛的关注，并提出了大量具有推理功能的模型。然而，目前的基本模型仍然没有涉及对这些认知能力的探索，其在复杂任务中的表现仍然非常有限。

7 Open Problems

7.1 Brain-Inspired FMs

大脑为高效的算法设计提供指导。

大脑结构
大脑启发的特性

7.2 Physics-Informed FMs

物理理论为数据分析提供证据。

基于物理理论的建模

7.3 Learning Theory of FMs

探索无监督学习理论。

从压缩中理解

7.4 Causal Inference of FMs

挖掘数据间的潜在相关性。

语言模型驱动推理
因果推理理论

7.5 Interpretability of FMs

提高可解释性。

用可解释性的结构进行设计
可视化分析

7.6 Robustness of FMs

提高数据分布的稳健性。

数据扩充和自适应方法
吸收外部知识

7.7 Knowledge-Based RSFMs

遥感知识集成。

遥感知识图嵌入

7.8 Spatiotemporal Forecasting Ability of RSFMs

预测时空关系的能力。

时空数据构建
时空建筑

7.9 Multimodal and Cross-Modal RSFMs

处理任意模型的遥感数据。

多模式数据抑制学习
多模式对齐和融合

7.10 Efficiency of RSFMs

参数扩展会影响效率。

有效的参数优化、量化和修建

7.11 Security of RSFMs

对抗性示例会影响模型的准确性。

对抗性样本防御

7.12 Friendliness of RSFM Interfaces

设计简单且用户友好的系统界面。

数据集管理、任务设置、模型微调、高效的模型部署

8 Concluding Remarks and Discussion

FMs已成为RS研究的一个很有前途的方向。在这篇文章中，对遥感基础模型的发展现状进行了全面的调查。我们首先解释了基础模型的关键技术，包括变压器结构、自监督预训练方法和有效的参数优化技术。然后，介绍了跨各个领域的基础模型的最新发展，包括语言、视觉、视觉语言和遥感基础模型。我们探索了遥感解释的核心应用，包括分类、定位和理解任务。

然后，从全局表示、局部表示和目标定位三个方面进行了性能比较实验。通过实验，我们观察到，尽管遥感基础模型表现出了潜力，但由于有限的遥感数据和某些结构设计限制，它们在实现与天然基础模型相比的显著优势方面仍然面临挑战。

通过以上研究和分析，本文对遥感基础模型的研究和开发进行了总结。从基础模型的开发过程来看，模型更新很快。如本文所述，一个模型，如元变换器，将具有12种模态的数据应用于一个基础模型，类似的研究将在遥感领域迅速跟进。在不久的将来，多模态和跨模态遥感基础模型将受到大量研究。遥感领域的大量数据将得到更充分的挖掘。多模式数据的障碍也将逐步被打破。

然而，这些研究背后的大规模计算意味着这种研究形式很难遵循。大量的计算和缺乏理论研究支持将是当前遥感基础模型的不足之处。为此，本文进一步阐述了调频的一个有价值的研究方向，即大脑启发的遥感基础模型。与当前基础模型的研究思路不同，大脑启发的特性将为基础模型提供生物学背景的理论基础、可靠的性能和更高的数据利用效率。该框架为遥感交互中未来模型和应用的开发提供了一个新的视角。

最后，我们确定了遥感基础模型研究中的12个悬而未决的问题，包括大脑启发建模、物理信息集成和基于知识的学习等领域。解决这些悬而未决的问题将推动遥感解译中创新方法的提出和采用。

总之，遥感基础模型具有巨大的潜力，并继续成为一个活跃的研究领域。通过解决已确定的挑战并探索受大脑特征启发的新途径，我们可以释放遥感基础模型的全部潜力。

《Revisiting pre-trained remote sensing model benchmarks resizing and normalization matters》

Abstract

近年来，对遥感图像的自监督学习（Self-Supervised Learning，SSL）的研究进展迅速并且应用的越来越广泛，以遥感图像为数据集的基准也发展的十分迅速。一个常见的基准案例是在具有较小切片（32x32像素）的遥感数据集上评估自监督学习预训练模型的嵌入，而标准自监督学习预训练是在具有较大切片（224x224像素）的情况下进行。此外，预训练方法倾向于根据数据集使用不同的图像归一化预处理步骤。在本文中，展示了在七个不同分辨率的卫星和航空图像数据集中，通过简单地遵循与训练中使用的预处理步骤（图像大小和归一化方法），可以在评估下游任务的提取特征时实现显著的性能改进。

1 Introduction

自监督学习（SSL）模型、基础模型和迁移学习方法已经应用于遥感图像处理上。因此，需要严格的基准来确定拟议方法的长处和短处。

迁移学习

在任何迁移学习的设置中，一个常用的基准是使用在ImageNet（ILSVRC2012）数据集上预训练的模型中的嵌入，这是由于实现的简单性和在推广到未知数据时的强大泛化性能。然而，即使使用全卷积神经网络（FCN），模型的图像输入大小也是一个重要因素，应该在测试或预测时进行控制。常见的大型基准库，如PyTorch图像模型（timm）和OpenCLIP，提供了在不同图像大小下训练的基准结果，并在与原始数据集大小相同的大小下进行评估。简单来说，在ImageNet数据集上预训练的模型，这些图像已经被调整大小并裁剪为固定大小（传统上为224x224或256x256），当这些模型在测试时被输入相同大小的图像时，将产生用于迁移学习的最相关嵌入。

遥感图像的标记数据集通常含有的是比传统图像分类数据集更小尺寸的图像，例如[32x32]。因此，如果来自这些小尺寸遥感数据集的图像与采用ImageNet预训练模型一起嵌入使用，则结果将是次优的。

图像归一化

ImageNet预训练模型的标准预处理方法是将图像中的所有值归一化到[0,1]范围，然后使用ImageNet统计信息执行通道标准化。然而，由于遥感图像通常比标准视觉数据集中的图像具有更高的比特深位（或颜色深度，12比特或16比特深度 VS 8比特深度）通常应用不同的图像归一化方法。如果用一种方法归一化的图像与在不同归一化方法下预训练的网络一起使用，则结果也是次优的。

训练方法

在使用嵌入模型进行下游遥感任务的迁移学习时，考虑如何训练嵌入模型是至关重要的。例如在EuroSAT RGB数据集上对输入图像从[64x64]简单双线性上采样到[224x224]，发现由ImageNet预训练的ResNet-50生成的嵌入的模型准确性从0.82提升到0.91.类似的，执行通道标准化而不是重新缩放图像值以表示反射率，会导致性能从0.66提高到0.91（当与调整大小到[224x224]相结合时）。正确执行这些步骤可以获得简单的基线，如ImageNet预训练，结果与之前发布的方法具有竞争力。此外，对几种简单的方法进行了基准测试，包括MOSAIKS和一种简单的基于图像统计的特征提取方法，并发现它们在几个数据集上优于ImageNet和/或遥感自监督预训练方法。

输入图像大小对不同ResNet模型的EuroSAT下游性能（总体精度）的影响。默认情况下，EuroSAT图像为64×64像素，但在嵌入前将图像大小调整为较大的图像大小，在所有情况下都会提高KNN（k=5）分类模型下的下游精度。

该结果形成了一组强大的基线，可用于对未来的遥感图像自监督学习方法进行基准测试。

1.1 Related Work

尽管许多新的深度学习架构声称由于其提出的新颖模型设计而实现了最先进的性能，但事实上，他们这样做只是因为与基线和现有方法相比，训练策略和超参数不一致。当所有模型都在同一个竞争环境中时，过去的方法在强基线上的性能增益往往变得微不足道。

先前探索调整输入大小对卷积神经网络性能影响的论文，都通过不同的图像大小下改变训练和测试来研究不同的实验设置，并从经验上表明，在推理过程中增加图像大小可以提高性能，在[256x256]的图片大小附近开始饱和。然而，这两项工作都严格地只使用ImageNet预训练来探索自然图像，而不是遥感图像，这也是本文的目的。有人通过执行一个简短的实验，为遥感数据提供了最接近这种情况的证据，该实验报告了线性探测结果，显示出在增加输入图像大小的同时性能有所提高。

2 Methods

作者使用多种方法从遥感图像数据集中提取特征表示（或嵌入），同时改变图像预处理步骤。具体而言，使用双线性插值来改变传递给特征提取器的图像大小，并且在通道标准化（即大多数ImageNet预训练模型的默认做法）之间改变图像归一化方法，将输入图像值转换为反射率值，最小-最大归一化（min-max normalization），或方法特定的归一化。在具有多光谱信息的数据集中，我们只使用RGB通道以及多光谱（MSI）通道运行实验。

notes：

为了通过ImageNet预训练的ResNets处理多光谱(MSI)图像，作者在第一个卷积层中重复RGB权重，以考虑额外的输入频带。对于SSL4EO MSI预训练的ResNets，我们将通道设为零，以考虑数据集中未提供的任何频段。

使用以下方法提取特征表示：

ResNet-50 Random init.

带有随机权重初始化的普通ResNet-50（遵循默认的torchvision设置）。这个和下面两个ResNet-50模型生成的2048维特征是由最终的全局平均池化操作产生的。

ResNet-50 ImageNet

在ImageNet上预训练的ResNet-50，图像大小为[224x224]（默认的torchvision预训练权重）。

ResNet-50 SSL4EO

使用MoCo-v2自监督学习方法在带有[224x224]大小图像的SSL4EO数据集上预训练的RenNet-50。

RCF (Random)

一种利用随机卷积特征（RCF）将输入投影到较低维空间的特征提取方法。作者使用TorchGeo的[3x3]大小，512个卷积核的卷积来实现。在结果中将其称之为随机权重的RCF。

MOSAIKS / RCF (Empirical）

一种类似与随机卷积特征RCF的特征提取方法，但使用从训练集中随机采样的ZCA whitened patches初始化权重。使用TorchGeo的[3x3]大小512个卷积核来实现。在结果中称之为具有经验权重的RCF。

Image Statistics

一种手工制作基线的方法，由简单地从图像中计算每个通道像素的统计数据组成。给定一张图像，计算每个波段的平均值、标准差、最小值和最大值，并将其连接到一个简单的4c维度特征表示中，其中c是输入通道的数量。

2.1 Evaluation

为了评估预训练模型的表示性能，通常通过在预训练模型生成的表示上训练线性模型并测量该线性模型的性能，对给定的下游任务执行“线性探测”。然而，这种方法在不同论文之间的实现非常不同--一些论文使用数据增强，而另一些则没有，还有一些使用各种不同的优化器（SGD、Adam、LARS）、正则化方法和学习率/学习率计划。因此，为了公平评估，作者拟合K最邻近（KNN）模型来从各种数据集中提取特征，设置K=5。

3 Datasets

在我们的实验中使用的数据集是特别选择的，因为它们的原始图像尺寸很小，以显示调整大小的效果。这些数据集通常在没有调整大小的情况下进行基准测试，这使得它们成为量化大小对性能影响的完美候选。作者还选择了来自低分辨率卫星和高分辨率航空图像的数据集。

EuroSAT
SAT-6
So2SAT
BigEarthNet
TreeSATAI
UC Merced
RESISC45

4 Results and Discussion

4.1 Fair Comparison to ImageNet Pretraining

在对ImageNet预训练进行测试时，调整图像大小具有重要意义。使用SeCo方法和ImageNet预训练的ResNet-18进行了一个简短的实验，比较了从EuroSAT数据集中提取的特征。为了公平评估，在原始图像大小为[64x64]的情况下计算下游任务结果，并使用K最临近法KNN和线性探测法将其调整为[224x224]。根据评估所用模型的不同，一种预训练方法可能比另一种方法表现得更好。此外，虽然增加图像大小可以提高两种方法的性能，但是提高的幅度并不相等。

4.2 Image Size vs. Performance

上图显示了当仅使用RGB波段与所有光谱波段作为输入时，各种ResNet-50模型在EuroSAT数据集中的性能随输入图像大小的变化情况。观察到在所有情况下默认的数据集图像大小[64x64]都不会产生最佳性能。例如，在ImageNet上预训练的ResNet-50中，将大小从[64x64]调整到[256x256]会导致精度提高10个点。

对于输入图像大小对不同ResNet模型的EuroSAT下游性能（总体精度）的影响。默认情况下，EuroSAT图像是[64x64]，但是在所有情况下，在KNN分类模型下（K=5），在嵌入之前调整到更大的图像尺寸会增加下游精度。

从左至右:[32 × 32]归一化，[224 × 224]未归一化，[224 × 224]归一化

为了可视化调整大小（和标准化处理Standard Normalization），在上图中，展示了使用在ImageNet上预训练的ResNet-50提取的EuroSAT RGB特征的t-SNE图。该图显示，在输入大小为[224x224]时，EuroSAT的类别是明显可分离的，而在[32x32]时，只能部分可分离。此外，当调整大小但不使用任何规范化时，没有明确的集群对应于数据集的类别。

4.3 Benchmarks

我们使用第二节中描述的方法对第三节中的每个数据集执行全面的基准测试。结果显示如下：

ResNet-50_SSL4EO训练集_MoCo-v2方法预训练权重在下游任务中具有最佳的总体性能。在七个RGB数据集中的6个和五个多光谱数据集中的3个的性能上排名前2。
Scale-MAE预训练模型在EuroSAT和RESISC45数据集上表现最好，但在UCM数据集上不如ImageNet预训练。
MOSAIKS（即具有经验权重的RCF）是多光谱数据集上非常强大的基线，在5个多光谱数据集中的四个里排名前2。
除了一个多光谱数据集中，图像统计基线比ImageNet低0.25%，其他所有多光谱数据集上都优于ImageNet预训练模型。
在SAT-6数据集实验中，除随机初始化的ResNet-50外，其他方法的准确率均大于99%。甚至图像统计基线也达到了99.6%的总体精度。这表明数据集太过简单，不能用作比较模型的基准。
与基于ResNet的模型相比，。调整图像大小不会导致随机特征卷积RCF方法的下游性能发生显著变化。
在具有多光谱信息的5个数据集中，在RGB波段上添加额外的多光谱波段会在两种情况下降低ResNet-50 ImageNet预训练性能。然而，在所有情况下，增加多光谱信息可以提高ResNet-50随机初始化性能。这进一步突出了ImageNet、自然图像和遥感图像之间分布的差异。
在So2Sat数据集中，从Random集切换到Culture-10集比预训练模型更能降低随机特征卷积RCF方法的准确性。假设这是因为Culture-10训练集测试地理泛化性，而随机特征卷积RCF只能使用来自训练集的颜色/纹理，而预训练的模型可能会将集合中的相似斑块分为相似的特征表示。

5 Best Practices

综上所述，以下是作者认为所有遥感预训练研究都应该纳入其分析的最佳实践列表。

总是与简单基线进行比较：跨数据集的性能可能会产生误导，因此去比较简单和有效的基线。推荐使用ImageNet预训练模型、随机特征卷积RCF和图像统计。
调整大小和归一化：将输入的大小调整为与训练期间相同的参数，并对所有要比较的方法进行标准化处理。
在KNN和线性探测法之间更倾向于选择KNN。更倾向于选择KNN和线性探测法而不是微调：由于线性探测法有许多超参数和执行线性探测实验的方式，可能会夸大特征表示能力。此外，虽然微调是通过比较预训练的权重作为初始化的方法，但这往往不能完全准确地指示表示能力，并且已经证明在分布外的下游任务中表现不佳。

《Self-supervised remote sensing feature learning Learning Paradigms, Challenges, and Future Works》

Abstract

深度学习在海量遥感图像特征学习方面取得了巨大成功。为了更好地理解特征学习范式（如无监督特征学习USFL、监督特征学习SFL和自监督特征学习SSFL）之间的联系，本文从特征学习信号的角度对其进行了分析和比较，并给出了统一的特征学习框架。在这个统一的框架下，分析了SSFL在遥感影像解译任务中的工作，包括预训练数据集、自监督特征学习信号和评估方法。进一步分析了SSFL信号和预训练数据对学习特征的影响，为改进遥感影像特征学习提供见解。最后简要讨论了一些有待解决的问题和可能的研究方向。

1 Introduction

获取具有判别性和不变性的特征表示是遥感图像理解的基础。特征识别问题与视觉流形假设（visual manifold hypothesis）密切相关，即在人类视觉感知中，高纬空间中呈现的真实世界数据样本通常嵌入到低维流形中，不同类别的样本自然聚类。换句话说，视觉可分性高度依赖与特征表示的判别能力。人类视觉的优势在于物体识别在各种环境下的不变性。在遥感图像理解领域，物体的视觉特征通常受到外部和内部因素的影响。外部因素是成像条件（如光照、视觉点和尺度）和成像机制（如光学和SAR图像）的变化，内部因素是植被物候变化等内部随时间的变化。这些因素导致了视觉特征的显著变化，这使得遥感图像理解任务非常具有挑战性。因此，获取对变化不敏感的特征表示成为人们关注的焦点，这也是保证遥感图像理解模型在不同区域、不同时间、不同成像条件下泛化能力的关键。

在过去的十年中，从大量数据中学习特征表示取代了传统的人工提取特征，且在许多遥感图像理解任务中表现优异。特征学习的成功主要归因于两个因素：

采用深度分层网络架构
使用大量样本进行深度网络模型训练

早期的特征学习研究旨在使用稀疏编码、自编码器和深度信念网络（DBN）等模型以无监督的方式学习特征。由于在学习过程中缺乏基础真理和有效的反馈机制，学习到的特征可能不足以对遥感影像理解任务具有足够的判别性和不变性。随着卷积神经网络的发展，人们提出了许多监督特征学习方法，并证明这些方法在提取具有可区分性和不变性的高级视觉特征方面很有前景，并成功地应用于遥感影像理解任务中。尽管有监督特征学习（SFL）范式比无监督特征学习（USFL）范式有了很大的进步，但它们需要大规模、高质量的标记数据，而这些数据很难获得，因为标注遥感影像是繁琐的，需要丰富的经验和地理知识。此外，用于遥感影像理解任务的注释方法是任务驱动的。例如，场景分类任务需要图像级标注，而语义分割任务需要像素级标注。

与通过标记数据“教”模型的机器视觉不同，类人视觉并不局限与特定任务或特定数据集，基于人类语言的标签也不是构建人类视觉系统的先决条件。因此，在自然语言处理领域提出了新的特征学习范式--自监督特征学习（SSFL）。它使用人工设计（human-designed）任务不可知的（task-agnostic）自监督学习信号，对大量未标记的数据生成伪标签，从而取代人工标签来指导模型学习。

2 A Unified Feature Learning Paradigm for Feature Learning Signals

2.1 Definition

在特征学习范式上，特征学习方法可以分为三类：

无监督特征学习（USFL）
监督特征学习（SFL）
自监督特征学习（SSFL）

3 Progress of Self-supervised Learning on Remote Sensing Data

3.1 Self-supervised Learning Datasets

在大规模和多样化的数据集上训练的模型具有两个优势：

学习参数提供了一个很好的起点，因此模型在其他任务上训练时可以更快地收敛
这类模型通常已经学习了丰富的特征，这有助于减少在新任务训练时的过拟合风险。

人工构建带标签遥感图像数据集：

自监督学习不需要人工标注，因此上表中数据集可以在丢弃标签后直接用于自监督特征学习。然而，这些数据集的规模远远小于用于计算机视觉的数据集，后者的规模高达数亿。因此迫切需要建立更大的自监督特征学习数据集。

自动采样构建遥感影像数据集：

通过自监督学习，特征学习过程不需要人工标注，降低了构建超大规模遥感影像数据集的标注成本。

3.2 Self-supervised Feature Learning Signals

在自监督特征学习中，特征学习不依赖于手动标签，而是由伪标签引导，伪标签是通过人工设计的自学习信号，从大量未标记的数据中挖掘关联信息而自动获取的。许多研究表明，自监督特征学习信号的选择对于模型学习良好特征的能力至关重要。现有的自监督特征学习信号分为三类：生成型、预测型和对比型。

3.2.1 生成式学习信号

生成式学习信号训练模型从部分损坏的输入中重建原始输入以进行特征学习。它假设如果上下文信息特征学习的很好，模型可以恢复缺失的信息。构建过程如下：

通过添加随机噪声、掩码来破坏原始数据x，或者下采样x来获得被破坏的 $\tilde{x}$ 版本。
具有编码器-解码器架构的模型 $f(\cdot )$ 通过最小化目标函数 $\left \| f(\tilde{x})-x \right \|^{2}_{2}$ 来学习特征。

生成式学习信号可以进一步分为：

基于空间缺失内容生成的学习信号
基于时间缺失内容生成的学习信号

1）基于空间缺失内容生成的学习信号：

图像去噪
图像修复
超分辨率

1）基于时间缺失内容生成的学习信号：

通过时间缺失内容生成任务构建自监督学习信号是基于时间变化模式和语义之间存在相关性的假设。

3.2.2 预测式学习信号

与处理像素级细节的生成学习信号不同，预测学习信号侧重于学习语义上下文特征。这种学习信号可以分为两类：

基于空间关系预测的学习信号
基于频谱特征预测的学习信号

1）基于空间关系预测的学习信号

这种信号在自监督学习中的应用是基于物体各部分之间的空间关系信息与物体语义相关的假设。

相对位置预测
拼图
图像旋转预测

2）基于频谱特征预测的学习信号

使用这种自监督学习信号进行特征学习是基于语义与其对应谱之间存在强相关性的假设。模型应该了解图像的语义信息，才能正确预测相应的光谱。

从输入的多光谱/高光谱图像x中获取灰度图像 $\tilde{x}$
通过最小化目标函数 $\left \| f(\tilde{x})-x \right \|^{2}_{2}$ 来训练具有编码器-解码器结构的模型 $f(\cdot )$

对于只有RGB通道的遥感图像，上述过程可以看作是一个着色任务，即使用灰度通道预测RGB颜色通道。

3.2.3 对比学习信号

对比学习信号使同一图像的不同增强视图（正样本对）更接近，并使不同图像的不同视图（负样本对）更接近，以学习不变和可区分的视觉特征。对比学习信号可以分为两类：

单模态对比学习信号
多模态对比学习信号

1）单模态对比学习信号

单模态意味着用于构建该学习信号的正样本和负样本是从同一模态中收集的。实验表明，构建正样本和负样本的方法对学习特征在下游任务中的表现有显著影响。因此根据正样本和负样本的构建方式，可以将单模态对比学习信号进一步细分：

实例级对比学习信号
类别级对比学习信号
时间序列级对比学习信号

2）多模态对比学习

现如今可以在同一区域的同一场景中获得多模态的数据。这些不同的模态数据具有很大的视觉差异，但从本质上将，它们是同一场景的不同视图表示，因此包含了同一场景的嵌入式不变特征。因此，由于成像机制不同，同场景不同模态数据具有互补特征。同一场景的多模态数据为正样本，不同场景的数据为负样本的多模态对比学习方法备受关注。

SAR-可见光对比学习
遥感图像-文本对比学习
遥感图像-音频对比学习

3.3 Evaluation Methods for Self-supervised Feature Learning

对从海量遥感数据中习得的自监督特征的表征能力进行准确、客观的评估。具体来说，这些学习到的特征在遥感解译任务中是否具有很强的可分辨性，对于不同区域、时相和分辨率的遥感图像是否不变，通过自监督学习的性能可以对其进行定性和定量评价。

3.3.1 定性评价方法

定性评价方法将学习到的特征可视化来评价质量。常用的方法有三种：

Kernel Visualization
Feature Map Visualization
T-SNE无监督聚类可视化

特征图可视化（Feature Map Visualization）得到了广泛的应用，利用反卷积和类激活可视化等技术，将自监督学习模型得到的输入图像的激活特征图可视化。在此基础上，可以观察到模型在理解输入图像时关注哪些区域，这些区域与吸引人类注意力的区域是否一致。

3.3.2 定量评价方法

目前，自监督学习特征通常由下游任务定量评估。具体而言，自监督学习获得的特征作为预训练的模型参数，传递给下游任务（如遥感场景分类、语义分割、目标检测）。然后对其在下游任务中的表现进行评价，并将评价结果作为特征的评价结果。常用的传递方法有：

线性探测
微调

线性探测法的过程是:

固定自监督学习得到的网络参数，在网络的最后一层加入一个线性分类器。
使用下游标记数据训练线性分类器，评估自监督学习特征的性能。

然而，由于分类结构简单，该方法只能评价自监督学习特征在图像级分类任务(如遥感场景分类)中的表现。

微调方法使用自监督学习方法预训练的模型参数作为特定任务模型主干的初始化，然后通过在主干后添加特定任务的适配器，将学习到的特性传输到各种遥感图像解译任务。由于通过自监督学习方法学习的特性可以通过简单地修改特定于任务的适配器来适应不同的下游任务，因此这种特性转移方法支持更全面的特征表示能力评估。

4 The Key Factors Influencing Self-supervised Feature Learning

4.1 Self-supervised Feature Learning Signals

对于标签数据非常有限的下游任务，基于良好的起点优化模型可以降低过拟合的风险。因此，自监督学习信号的选择至关重要，因为它决定了通过预训练可以学习哪些特征，以及这些特征是否与下游任务相关。本实验分析了自监督学习信号如何影响下游任务中学习到的特征的性能。

对比学习是一种最优选择，因为学习到的特征在大多数下游任务中都是优越的
自监督学习信号的选择应该考虑下游任务的特性

4.2 Effects of The Pre-training Datasets on The Performance of The Self-supervised Learned Features in Downstream Tasks

空间分辨率和数据量是数据集的两个基本且重要的属性。空间分辨率决定了模型从遥感影像中学习到的空间信息的丰富程度。数据量决定了学习特征的多样性。

1）空间分辨率

预训练数据集的空间分辨率是自监督学习的关键
预训练数据分辨率对自监督特征学习的影响可能大于预训练数据集与下游数据集之间的领域差距

2）数据量

扩大预训练数据的大小可以提高学习到的特征在大多数下游任务中的性能
超过30万个预训练的样本就没什么增益了，学习到的特征在这些任务中的表现似乎在1百万之前就饱和了

5 Future Work

5.1 Theoretical Foundation of The Internal Relationship between Pretext Tasks and The Performance of SSFL

自监督学习方法通过多个前置任务（pretext tasks）构建的学习信号来学习特征，这与仅使用数据标签中的类先验知识作为特征学习信号的监督式特征学习方法不同。目前的研究表明，学习信号的选择对于学习到的特征在下游任务中的表现至关重要，而由一个不好的前置任务构建的学习信号可能很难学习到能够促进下游任务的特征。然而，学习信号与特征表示能力之间的内在关系尚不清楚。

现有的自监督学习方法可以从遥感数据中学习到哪些特征
不同自监督学习信号学习到的特征不同吗
是否可以将不同自监督学习信号组合起来实现互补
设计与遥感解译任务相关的自监督学习信号是否可以提高特征表示能力

5.2 Transfer Self-spuervised Learning Feature to Downstream Tasks

自监督学习信号具有不同的动机，因此学习到的特征与下游目标任务之间的相关性可能不同。如果将特征视为一种知识，那么与目标任务关联较强的特征可能是一种“特殊知识”，与目标任务关联较弱的特征可能是一种“一般知识”。这意味着它们对下游任务有不同的影响。因此，对不同自监督学习方法学习到的特征采用统一的特征迁移策略，无论是线性探测还是微调，都可能导致迁移无效甚至负迁移，从而削弱模型的泛化性能。因此，需要对自监督学习特征迁移方法进行进一步的研究。

提出衡量自监督学习特征与下游任务相关性的准则，并根据其之间的关系设计特征转移方法
开发从自监督特征学习到监督下游任务的端到端的迁移方法，允许网络自适应地学习特征以适应下游任务

5.3 Continual Self-supervised Feature Learning Model from Multimodal Remote Sensing Data

随着全球对地观测系统(GEOSS)的快速发展，提供了大量的遥感数据。为了处理不断增长的无标记遥感数据，需要通过对流遥感数据的持续自监督学习来实现自生长特征表示能力。此外，遥感数据可能由多个传感器采集，并且采用不同的模式(如高光谱、多光谱、SAR、卫星视频)，因此为每一种模式构建模型会增加训练成本，并且可能无法学习到互补特征。尽管计算机视觉领域已经开发了许多与多模态SSFL相关的方法，但这些方法大多基于不同模态数据精确对齐的假设。因此，它们很少用于遥感领域。不同模态数据之间的精确时空对齐是一个尚未解决的技术问题。因此，对于未标注的未对齐数据，如何构建多模态数据的连续特征学习范式，学习不同模态之间的内在关系是未来值得研究的问题。

5.4 The Benchmark for Remote Sensing SSFL Evaluation

自监督学习的遥感特征的质量通常由下游遥感影像理解任务评估。然而，在遥感领域任然缺乏一个标准化的评价自监督学习的基准，此外，衡量自监督学习特征在不同下游任务上的通用性也很重要。但不同任务的评价指标不同，例如场景分类采用整体精度，目标检测一般采用平均精度。因此很难直接对其进行统计（如平均）汇总，形成一个综合的评价指标。

《Vision-Language Models in Remote Sensing Current Progress and Future Trends》

Abstract

在遥感领域，关于通用人工智能AGI实施的文献相对较少。现有的人工智能相关研究主要集中在视觉理解任务上，而忽略了对对象及其关系的语义理解。这就是视觉语言模型的优势所在，因为其可以对图像及其相关的文本描述进行推理，从而可以更深入地理解底层语义。视觉语言模型不仅可以识别图像中的对象，还可以推断它们之间的关系，并生成图像的自然语言描述。这使得其更适合于同时需要视觉和文本理解的任务，例如图像字幕、基于文本的图像检索和视觉问题回答。

1 Introduction

深度学习已经成为各种遥感应用的强大工具。遥感早期的工作主要集中于使用从图像中提取的视觉特征来执行各种任务，如目标检测、语义分割、土地覆盖分类和变化检测。

卷积神经网络(cnn)是最常用的深度学习方法之一，它可以自动学习遥感图像的层次表示，使其能够捕获局部和全局的空间特征和模式。此外，注意机制已被纳入深度学习模型，通过允许模型专注于输入的特定区域来提高其在遥感任务中的表现。由于深度神经网络强大的特征学习能力，深度学习模型已经证明了它们在各种遥感任务中的有效性，与传统的机器学习方法相比，实现了最先进的性能。然而，现有的基于深度学习的研究大多集中在视觉理解任务上，而忽略了对对象及其关系的语义理解。例如，在进行土地覆盖分类时，如果建筑物屋顶像素在视觉上与高速公路相似，则纯视觉模型可能将该像素分类为高速公路。这是因为该模型缺乏高速公路不能建在建筑物屋顶的常识。

大型语言模型（Large Language Models，LLM）已成为自然语言处理（Natural Language Processing，NLP）和计算机视觉领域的一个热门研究课题。这些模型构建了用于视觉和自然语言理解的大规模Transformer模型，并在语言建模、文本生成和问答等各种语言理解任务中取得了最先进的性能。ChatGPT的显著成就引发了对人工通用智能AGI大型语言模型领域的兴趣和研究浪潮。它们有望在图像理解和自然语言处理方面取得进一步的进展，将语言理解水平提升到前所未有的水平。大型语言模型的巨大成功鼓励了视觉语言模型VLMs的大量研究。

视觉语言模型VLMs通常被定义为一系列人工智能模型，结合了计算机视觉和自然语言处理技术，以生成对视觉和文本信息的全面理解。视觉语言模型具有联合识别视觉和语义模式及其关系的能力，不仅可以识别图像中的对象，还可以推断其之间的关系，并生成图像的自然语言描述。更重要的，通过将视觉模型与具有一般推理能力的大型语言模型LLMs相结合，视觉语言模型VLM提供了一种更全面和类似人类的方法来理解视觉内容。

2 From Vision to Visual-language Model

2.1 Vision Models

最常用的视觉模型是卷积神经网络CNN，通过对输入图像进行卷积运算，然后进行池化和非线性激活函数来提取高级特征。这些模型通常使用反向传播（梯度下降法）进行训练，以最大限度地减少预测输出与真实值标签之间的误差。

最近，基于Transformer的模型，最初是为了自然语言处理任务开发的，已经在许多计算机视觉任务中得到了广泛的探索。这些模型被称之为视觉Transformer，使用自注意力机制从图像中提取特征，使其学习图像的不同区域之间的全局依赖关系。

2.2 Large Language Models

大型语言模型（Large Language Models，LLM）成为自然语言处理（NLP）和计算机视觉领域的一个热门研究课题。这些模型构建了用于视觉和自然语言理解的大规模Transformer网络，并在语言建模、文本生成和问答等各种语言相关任务中取得了最先进的性能。

GPT
BERT
T5
CoT

2.3 Vision-Language Models

鉴于预训练模型在计算机视觉和自然语言处理（NLP）方面的成功，研究人员试图预训练结合这两种模式的大规模模型，这些模型被称为视觉语言模型（VLMs）。这些视觉语言模型可分为两种模型架构：

融合编码器模型Fusion-encoder：使用多层跨模态Transformer编码器对图像和文本对进行联合编码，并融合其视觉和文本表示。
双编码器模型Dual-encoder：双编码器模型分别对图像和文本进行编码，并使用点积或MLP来捕获模态之间的相互作用。

Fusion-encoder

融合编码器接受视觉特征和文本嵌入作为输入，并采用多种融合技术来捕获视觉和文本模式之间的交互。最后一层的潜在特征被认为是自注意力或交叉注意力操作后不同模态的融合表征。

与单流架构中使用的自注意力机制相比，双流架构利用交叉注意力机制来捕获视觉和语言模式之间的交互。交叉注意力层通常由两个单向子层组成，一个处理语言到视觉，另一个处理视觉到语言。这些子层促进了两种模式之间的信息交换和语义对齐。

Dual-encoder

双编码器为每种模式使用两个独立的编码器分别对视觉和文本信息进行编码。从相应的编码器编码的图像和文本嵌入然后通过注意力层或点积等操作投影到共享的语义潜在空间，这些操作用于计算视觉和语言之间的相似度得分。与融合编码器相比，双编码器在Transformer中不使用复杂的交叉注意力机制，因为其预先计算并存储图像和文本嵌入，使视觉语言交互建模更加高效。

3 VIsion-Language Models in Remote Sensing

“-”表示不适用
“FM”表示基础模型Foundation Model
“RSIC”表示遥感图像字幕Remote Sensing Image Captioning
“T2IG”表示基于文本的图像生成Text-Based Image Generation
“VQA”表示视觉问答Visual Question Answering
“VG”表示视觉接地Visual Grounding
“SC”表示场景分类Scene Classification
“OD”表示目标检测Object Detection
“SS”表示语义分割Semantic Segmentation

3.1 Foundation Models

基础模型是指在海量数据上以任务不可知的方式训练的大型预训练深度学习神经网络。这些模型可以应用与使用微调、少量或零次学习的各种下游任务。

在遥感RS中，预训练对于提高分类、检测和分割任务的性能至关重要。以前的方法主要是利用ImageNet数据集进行预训练。然而，由于自然图像与遥感影像之间的显著差异，将ImageNet预训练模型转移到遥感任务中存在巨大的域间隙。因此，有必要设计适合遥感数据的基础模型。研究人员使用两种方法来实现这一目标：监督学习和自监督学习。在监督学习中，在大型遥感数据集MillionAID上预训练深度神经网络，并提高了这些模型在遥感数据集上的性能。然而，对大量标记数据的需求任然是一个障碍，因为其可能阻碍更大模型的训练。因此，自监督学习技术逐渐成为开发遥感基础模型的主要方法，因为其可以利用大量未标注的数据。还采用对比学习的方法进行基础模型训练，纳入遥感特有的信息，如地理数据、时间序列数据、音频数据等。最近，掩蔽图像建模（Mask Image Modeling，MIM）在计算机视觉领域得到了越来越多的关注，消除了对额外信息、数据增强和正负对选择的需要。因此，更容易利用大量数据。

3.2 Image Captioning

遥感图像字幕（RSIC）是一项复杂的任务，要求机器理解遥感图像的内容并以自然语言描述它。生成的描述不仅要捕获不同尺度的地面元素，还要捕获其相互关联的属性和方式。与其他预测单个标签或单词的任务不同，RSIC旨在生成综合句子。为了生成简洁有意义的句子描述，重要的是识别和认识不同层次的地面元素，分析其属性，并从高层次的角度利用类依赖和空间关系。

3.3 Text-based Image Generation

基于文本的图像是将自然语言处理和计算机视觉结合起来，从文本描述中创建逼真的图像。将该技术应用于遥感图像在实际应用中具有重大潜力。或许可以通过根据文字描述生成逼真的遥感图像来协助城市规划，使其能够评估方案的可行性。另一个潜在的方向是生成高质量的遥感图像标记数据集，基于文本的图像生成技术可用于从文本描述中创建合成遥感数据集，从而缓解标记样本的不足。

3.4 Text-based Image Retrieval

对海量遥感数据的有效组织和管理一直是遥感领域面临的挑战之一。基于文本的图像检索（TIR）旨在为遥感数据管理提供有效的解决方案。图像检索的主要目标是从大型数据集中提取特定的图像，其基本思想是缩小目标图像的搜索范围，并检索与特定查询匹配的图像。

3.5 Visual Question Answering

视觉问答（VQA）是一项旨在为与图像相关的问题提供答案的任务。在遥感领域仍处于早期阶段。遥感VQA系统使非专业用户能够使用自然语言问题作为查询与遥感图像进行交互，从而实现对图像的用户友好且高级的理解。

3.6 Visual Grounding

遥感视觉定位（RSVG）是近年来新兴的研究课题。RSVG（Remote sensing visual grounding）是指使用遥感数据来进行视觉定位和识别的技术。遥感数据可以是从航空或卫星平台收集的图像，通过分析这些图像可以确定地面上的物体、景观和地理特征。使用遥感数据进行视觉定位和识别可以帮助研究人员和决策者了解地球表面的变化、监测环境变化和资源利用，以及支持灾害响应和应对等应用。 RSVG技术通常使用计算机视觉和机器学习方法来从遥感数据中提取特征，并使用这些特征来推断和识别地物和地理特征。

具体来说，遥感视觉定位涉及利用遥感图像和相关查询表达式为感兴趣的特定对象提供边界框。遥感视觉定位通过自然语言引导在遥感场景中定位物体的过程，为最终用户提供对象级的理解和易用性。遥感视觉定位的潜在应用包括目标检测与识别、搜索与救援任务、城市规划等。

3.7 Zero-Shot Scene Classification

零样本远程感知场景分类（RSSC）旨在通过视觉特征和语义类之间的语义关系来识别未见过的场景概念。

零样本远程感知场景分类是一种远程感知场景分类的方法。传统的遥感场景分类方法通常需要大量的标记数据进行训练，以便能够准确地识别不同的地物类别。然而，这种方法在面对新的、未见过的地物类别时会面临困难，因为在训练集中没有相应的标记数据。

RSSC旨在解决这个问题，它利用属性嵌入（attribute embedding）来将地物类别与属性关联起来。通过学习已知类别的属性，然后将这些属性推广到未见过的类别上，从而实现对未知地物类别的分类。这种方法不仅可以提高对新类别的分类准确性，而且可以减少对标记数据的依赖。

3.8 Few-Shot Object Detection

目标检测涉及到通过识别目标的边界框和类标签来检测目标实例。

少样本目标检测（FSOD）旨在仅使用少数带标签的样本来检测遥感图像中感兴趣的对象。最近的少样本目标检测方法大致可分为两大类：

基于元学习Meta-Learning-Based：基于元学习的方法包含一个元学习器，用于从大量采样任务中学习与任务无关的知识，每个任务（也称为集）包括一个支持集和查询集，并使用特定任务的学习器对特定任务执行检测。
基于微调Finetuning-Based：基于微调的方法首先在基类上训练检测模型，然后在新类上微调网络权值。

在计算机视觉中，VLMs在少/零目标检测方面显示出巨大的潜力。多模态视觉语言预训练模型的使用使得开放词汇目标检测(OVOD)成为一个活跃的研究领域，因为它允许考虑更现实的场景。
传统的目标检测方法是在固定的和预定义的类上进行训练和评估的，与之相反，OVOD涉及在带注释的数据集上进行训练，并将训练好的模型推广到以前未见过的新类。为了启用Open-Vocabulary (zero-shot)检测，一种常见的策略是通过匹配对象特征和类嵌入来修改现有的对象检测头。通常，类文本嵌入是通过向预训练的VLM的文本编码器提供提示来生成的。该嵌入随后被用作区域分类器来监督检测器的训练

3.9 Few-/Zero-shot Semantic Segmentation

在语义分割领域，少样本学习方法可以用有限数量的注释图像分割新类。

基于参数匹配的方法
基于原型的方法

为了克服对基于深度学习的分割方法的数据依赖，许多研究探索了自监督、半监督学习和弱监督学习的方法，以减少对密集注释的需求。

在计算机视觉中，预训练的VLM已经被广泛地运用于开放词汇语义分割中，这是由于其在开放词汇图像分类中取得的显著成果。模型可以对任何类别进行分类，而无需对该类别的图像进行额外注释。

4 Conclusion and Future Trends

计算机视觉和自然语言处理作为不同的领域进行研究，每个领域都有其自身的挑战和应用。然而，ChatGPT等大型语言模型结合了计算机视觉和自然语言处理的优势，促进了基于VLM更接近人类思考的智能系统的开发。遥感中的一些研究已经证明了VLMs在各种遥感任务中优于纯视觉模型，包括图像字幕、基于文本的图像生成、基于文本的图像检索、视觉问题回答、场景分类、语义分割和目标检测。

遥感中VLMs当前的局限性：

用于训练VLMs的遥感数据集数量有限，其样本量远远小于计算机视觉领域数十亿的图像数据集。
现有的大多数遥感VLMs仍然使用经典的CNN和RNN作为图像和语言编码器，只有少数模型探索了计算机视觉中预训练的视觉Transformer和大型语言模型，这可能会限制这些模型的特征学习能力。
从头开始训练这些VLM需要大量的计算负担，特别是对于具有数十亿参数的大型网络。在遥感中，对于大型VLMs需要有效的模型微调技术。
由于光照条件、大气干扰和传感器噪声等因素，遥感数据可能表现出很高的可变性。这种可变性使得VLM很难准确地捕获视觉和文本信息之间的关系。
VLM可能难以处理大空间和时间尺度的遥感数据，这些数据可以覆盖大面积和长时间，使得捕获视觉和文本信息在空间和时间上的关系变得具有挑战性。

鉴于以上局限性，列出几个有前景的研究方向：

大规模数据集

基于人工智能的系统的准确性严重依赖于训练数据集的规模和多样性。然而在遥感领域中，现有最大的数据集，包括Million-AID，在规模方面与计算机视觉领域中包含数十亿图像的数据集相比存在不足。为了解决对更丰富数据集的迫切需求，以促进大型遥感视觉语言模型的大规模训练，必须共同努力建立数据收集和共享机制。因此，对于研究团队来说，合作建立足够多样化并与语言描述配对的数据集是至关重要的。

视觉语言基础模型

在遥感领域中，现有的基础模型只关注视觉模型，忽略了对对象及其关系的语义理解。相比之下，基于视觉语言的基础模型可以利用其语言理解能力来推断对象、其属性和周围环境之间的关系，从而允许从遥感图像中获取更具代表性的特征。这些特征可以应用与各种下游任务。

使用扩散模型生成基于文本的图像

现有的神经网络通常需要大量的数据进行训练才能收敛，而数据集的收集需要大量的人力和物力资源。另一方面，扩散模型由于能够生成具有更高细节和保真度的高质量图像，最近引起了大量关注。通过使用扩散模型基于现有的文本描述生成新的图像，可以创建合成数据，并有效地扩展数据集的规模，以提高深度学习模型的鲁棒性和泛化能力。此外，通过结合迁移学习或领域适应等技术，可以生成更多样化和更能代表现实场景的合成图像，从而通过扩散模型进一步提高数据增强的有效性。

少/零样本学习

得益于大型语言模型强大的推理能力，视觉语言模型通过基于视觉数据中单词和概念之间的关系识别未知对象或模式，显示出数据高效学习的巨大潜力。这使得它们在少/零样本学习场景中特别有用，在这些场景中，可用于训练的标记数据有限。虽然以前的尝试已经探索了使用较小的视觉和语言模型在少量/零样本设置下对RS图像的理解，但它们缺乏理解和识别看不见的物体或模式所需的推理能力。随着我们走向AGI时代，必须设计新的技术来更好地将大型语言模型集成到RS图像理解任务中，例如对象检测、语义分割和变化检测，特别是在少量/零样本设置中。

对遥感数据进行有效的微调

现有的大型语言模型通常包含数十亿个参数(例如，GPT3有175B个参数)，这使得对整个模型进行微调以适应RS数据变得不切实际。因此，需要有效的模型微调技术，使llm(如LLaMA[146])适应RS图像分析任务。有三种潜在的解决方案:

提示微调，设计可学习的提示，在新领域进行微调
适配器网络，在深度神经网络的现有层之间插入适配器层
低秩自适应，将可训练的秩分解矩阵注入Transformer体系结构的每一层。

将遥感专业知识整合到大型语言模型中

为了更好地利用大型语言模型进行遥感数据分析，重要的一步是将遥感专家知识适当地集成到大型语言模型中，这需要为大型语言模型赋予有关遥感图像的领域特定知识，例如传感器成像理论、空间相关性和地面物体的光谱特征。近期有提出称为指令调优（Instruction Tuning）技术，以提高大型语言模型在指令下的性能。该指令在几个全样本任务上进行微调，然后评估其在特定任务上的零样本泛化能力。在遥感领域中，可以采用类似思路，使基于知识的指令能够生成和理解遥感图像。

通过地理定位将基于文本的信息与遥感连接起来

大型语言模型可用于分析与地理定位相关的文本数据，如社交媒体文本消息、报纸等，提取语言特征甚至地理信息，然后与遥感数据进一步融合。这位广泛的应用开辟了新的视角，如建筑物的语义理解、灾害响应和地理感知社会动态，并为利用与遥感数据互补的非常规地理数据源提供了新的可能性。

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/花生_TL007/article/detail/419358