赞
踩
论文:Mind the Modality Gap: Towards a Remote Sensing Vision-Language Model via Cross-modal Alignment
深度学习(DL)正在经历一场范式转变,随着基础模型的出现,这些基础模型被称为关键但不完整的模型。在这项工作中,我们专注于对比语言-图像预训练(CLIP),这是一个开放词汇基础模型,可以在许多图像分类任务中取得很高的准确率,并且通常与完全监督的基线竞争性能而无需显式训练。然而,仍然存在一些域,其中零样本CLIP性能远非最佳,例如遥感(RS)和医学图像。这些领域不仅与自然图像相比具有根本不同的分布,而且通常依赖于RGB之外的互补模态来提取有意义的见解。为此,我们提出了一种方法,目的是将不同的RS图像模态与CLIP的视觉和文本模态进行对齐。我们的两阶段过程包括对CLIP进行鲁棒微调以处理分布转移,同时伴随RS模态编码器的跨模态对齐,以扩展CLIP的零样本能力。最终,我们在RS图像分类和跨模态检索任务上展示了我们的方法。我们在几个RS基准数据集上经验性地展示,鲁棒微调和跨模态对准都能转化为显著的性能提升。值得注意的是,这些增强是在不依赖文本描述、不引入任何特定任务参数、不从头开始训练以及不引入灾难性遗忘的情况下实现的。
相较于典型的图像分类器,开放词汇模型并不受限于固定的分类空间,能够使用分类名的文本描述执行任何图像分类任务。另一方面,作为基础模型的深度学习模型通常通过规模上的自监督训练,在大量通过网络爬虫方法获取的未标记数据上进行训练,它们是大型且多功能的深度学习模型,可以适用于各种下游任务。开放词汇基础模型结合了大规模预训练和处理固定词汇以外单词的能力,因此引起了极大关注,得益于其卓越性能和在不同领域的泛化能力,尤其在文本输入可能包含特定领域术语的情况下,这些模型尤其有用。
然而,在某些领域,如遥感和医学图像等领域,零样本CLIP性能仍远未达到最佳水平。尤其是在卫星场景分类方面,这是CLIP作者提出的少数任务之一,在EuroSAT数据集上,零样本CLIP表现明显低于完全监督的ResNet50基准模型,导致最大的差值(37.1%)。
为此,我们确定了卫星场景分类任务的三个主要差距,并在本研究中加以解决:
为了解决这些差距,我们提出了一个新颖的方法学,包括两个连续阶段,旨在在CLIP的背景下对RS图像模态进行跨模态对齐。我们的研究基于OpenAI的CLIP预训练图像-文本模型的集合。在第一步中,我们定义了一个修补过程,通过使用RS数据的RGB混合图像对CLIP进行强化微调,以处理上述分布偏移,而不影响CLIP在自然图像分类任务上的零样本性能。至于第二步,我们通过将预训练的RS编码器与CLIP的视觉和文本模态进行跨模态对齐,扩展了CLIP的零样本能力。
我们的主要贡献可以总结如下:
数据被视为基础模型训练的基石,CLIP也不例外。就RS领域而言,在与CLIP相关的发展方面落后,主要是因为领域内图像-文本配对数据稀缺。因此,近期的发展主要围绕着利用现有有限范围的RS数据集以及数据高效调整CLIP模型以解决手头的问题。
让
D
=
{
(
I
S
A
T
1
,
y
1
)
,
.
.
.
,
(
I
S
A
T
n
,
y
n
)
}
D = \{(I^1_{SAT} , y_1), . . . , (I^n_{SAT} , y_n)\}
D={(ISAT1,y1),...,(ISATn,yn)} 成为一个标记的 RS 成像存档,其中包含
n
n
n 个图像-标签对,其中
(
I
S
A
T
n
,
y
n
)
(I^n_{SAT} , y_n)
(ISATn,yn) 是存档中的第 n 个图像-标签对。每个图像
I
S
A
T
i
I^i_{SAT}
ISATi 都有一个相应的 RGB 复合图像
I
R
G
B
i
⊊
I
S
A
T
i
I^i_{RGB} ⊊I^i_{SAT}
IRGBi⊊ISATi,使用一个取决于
I
S
A
T
I_{SAT}
ISAT 的 RS 模态的专用函数
T
R
G
B
(
)
T_{RGB} ()
TRGB()生成。鉴于 RS 成像集合
I
S
A
T
I_{SAT}
ISAT 和相应的 RGB 复合物集合
I
R
G
B
(
)
I_{RGB} ()
IRGB(),以及相关的标签
y
y
y,我们旨在通过利用 RGB 复合物和标签作为锚点来学习一个共享的嵌入空间
E
E
E,以有效地对齐这些模态。目标是找到一个映射
f
:
I
S
A
T
∪
I
R
G
B
∪
y
→
E
f: I_{SAT} ∪I_{RGB} ∪ y → E
f:ISAT∪IRGB∪y→E,使得对于每个三元组
(
I
S
A
T
i
,
I
R
G
B
i
,
y
i
)
(I^i_{SAT} , I^i_{RGB} , y^i )
(ISATi,IRGBi,yi),嵌入
f
(
I
S
A
T
i
)
、
f
(
I
R
G
B
i
)
f (I^i_{SAT} )、f (I^i_{RGB})
f(ISATi)、f(IRGBi) 和
f
(
y
i
)
f (y^i )
f(yi) 在
E
E
E中紧密对齐。最终的嵌入空间
E
E
E 通过学习的表示,促进了 RS 成像模态、RGB 图像和文本之间的关联,从而实现了多模态下游任务。
为此,我们采用了一个分为两个阶段的方法,明确定义如算法 1。
初始化预训练的CLIP模型 M和分词器 T:加载预训练的CLIP模型和用于文本处理的分词器。
定义数据集D:包含若干图像-标签对 (xi, yi),类别名称集合Dclassnames,以及提示集合Dprompts。
初始化预训练的卫星成像模式编码器Msat:加载用于处理卫星图像数据的预训练编码器。
创建分类头cls_head():
对齐模型align(Mteach, Mstud):
主函数main():
这个算法的目的是通过两个阶段的处理,使得卫星成像模式编码器能够在一个共享的嵌入空间中与CLIP模型的视觉和文本模式有效对齐,从而提高遥感图像的分类和检索性能。
第一步解决卫星成像中的分布偏移,通过对 CLIP 图像编码器进行稳健的微调。
随后,在第二阶段,卫星多光谱模态嵌入与 RGB 图像和文本嵌入对齐,即将 Sentinel-2 多光谱成像对齐到 RGB 复合物和文本。由此产生的嵌入空间有效地关联了模态对,使得可以进行大量交叉模态检索和基于文本的零样本下游任务。
Patching with Interpolation(PAINT)能显著提高在分布转变下的准确性,同时在目标分布上保持高性能。PAINT采用两步过程,包括对模型进行微调,然后在微调之前和之后的模型权重之间进行线性插值。这种方法使得模型在更多任务上实现高准确性,而无需引入任何特定任务的参数,也无需从头重新训练模型,同时避免灾难性遗忘。
为了处理自然图像与卫星图像之间的分布转变,我们首先对CLIP进行了稳健微调,如图1所示,遵循了Ilharco等人描述的补丁协议。最终,我们得到了一个精炼的嵌入空间,从而为便于进行卫星交叉模态对准阶段奠定了坚实的基础。鉴于一个开放词汇模型,即CLIP,带有权重
W
z
s
W_{zs}
Wzs ,我们在来自一个补丁任务
D
p
a
t
c
h
D_{patch}
Dpatch 的训练数据上对
W
z
s
W_{zs}
Wzs 进行了微调,目的是产生权重
W
f
t
W_{ft}
Wft,在
D
p
a
t
c
h
D_{patch}
Dpatch上表现高准确性,而不降低已经足够良好的支持任务
D
s
u
p
p
D_{supp}
Dsupp上的性能。因此,通过保留的
D
p
a
t
c
h
D_{patch}
Dpatch和
D
s
u
p
p
D_{supp}
Dsupp上的留出验证集确定一个混合系数
α
∈
[
0
,
1
]
α ∈ [0, 1]
α∈[0,1],以线性插值
W
z
s
W_{zs}
Wzs 和
W
f
t
W_{ft}
Wft并生成
W
p
a
t
c
h
=
(
1
−
α
)
×
W
z
s
+
α
×
W
f
t
W_{patch} = (1-α)×W_{zs} +α×W_{ft}
Wpatch=(1−α)×Wzs+α×Wft 。实质上,
W
z
s
W_{zs}
Wzs 、
W
f
t
W_{ft}
Wft和
W
p
a
t
c
h
W_{patch}
Wpatch是CLIP图像编码器的权重。Ilharco等人[68]在微调过程中,使用CLIP的文本冻结输出作为图像编码器的输出层,以将图像特征映射到类别空间,而不是引入一个可学习的分类层。
在跨模态对齐阶段(如图 2 所示),我们利用第一阶段中使用的已修补的 CLIP 图像编码器
M
p
a
t
c
h
e
d
M_{patched}
Mpatched 作为教师网络,以及一个预训练的卫星模态编码器
M
s
a
t
M_{sat}
Msat 作为学生网络。为了有效地对齐这两个网络,我们采用一个基于以下假设的简单方法,即与相同样本相关的多种模态应在共享的CLIP嵌入空间中产生类似的嵌入。该过程涉及一对模态
I
R
G
B
I_{RGB}
IRGB和
I
S
A
T
I_{SAT}
ISAT 对应于 RGB 组合和其他遥感模态。对于给定的来自这两个模态的图像
x
i
∈
I
R
G
B
x_i ∈ I_{RGB}
xi∈IRGB 和其对应的样本
x
~
i
∈
I
S
A
T
\widetilde{x}_i ∈ I_{SAT}
x
i∈ISAT,我们获得它们各自的嵌入
E
i
=
M
p
a
t
c
h
e
d
(
x
i
)
E_i = M_{patched}(x_i)
Ei=Mpatched(xi) 和
E
~
i
=
M
s
a
t
(
x
~
i
)
\widetilde{E}_i = M_{sat}(\widetilde{x}_i)
E
i=Msat(x
i)。
在嵌入维度
E
i
E_i
Ei 和
E
~
i
\widetilde{E}_i
E
i 不同的情况下,我们为学生网络
M
s
a
t
M_{sat}
Msat 引入一个线性投影头,以确保输出嵌入尺寸匹配。
受知识蒸馏 [72] 损失函数以及先前的蒸馏工作 [73]-[76] 启发,通过一个联合目标函数
L
I
,
M
L_{I,M}
LI,M,指导学生模仿教师的视觉和文本嵌入,该函数由交叉熵损失
L
C
E
L_{CE}
LCE 和均方误差损失
L
M
S
E
L_{MSE}
LMSE 的线性组合构成。
L
C
E
L_{CE}
LCE通过使用 CLIP 文本编码器的冻结输出作为锚点利用标记数据监督确定,将图像特征映射到类别空间,而
L
M
S
E
L_{MSE}
LMSE 鼓励学生模仿教师的输出嵌入,与原始知识蒸馏损失的相对柔化的类别得分形成对比。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。