赞
踩
目前的大型视觉语言模型(VLMs)虽然能用于对给定的自然图像内容进行对话,但是这种通用领域的模型在遥感影像的场景中往往表现不佳,造成在遥感影像中特定查询时出现不准确或伪造的信息。为了解决这些问题,本文提出了第一个多功能遥感模型Geo Chat,将多模态指令调整扩展到遥感领域以训练多任务会话助手。它能够提供高分辨率遥感图像的多任务会话功能:
本文的贡献主要包括以下三个方面:
Geo-Chat 能够完成的任务如下:
Geo Chat 遵循 LLaVA-v1.5 的架构,由 3 个核心组件组成:全局图像编码器、多层感知机(两个线性层)和 LLM(大语言模型)。并且在 LLaVA 的基础上添加了特定的任务提示,架构中的每个组件描述如下:
本文通过不同的任务令牌让 Geo Chat 将遥感影像的多个图像和区域级推理任务统一在一个框架内。这些任务令牌为每个任务分配一个唯一的任务标识,有助于模型的响应更加符合用户的需求。本文提出了三个不同的任务标识,即 ,分别用于接地对话任务、区域描述和引用表达理解。对于视觉问答和场景分类的情况则直接让模型输出单个单词或短语。
模型精确地识别目标对象的空间位置,并被一个矩形包围。本文用文本格式来表示矩形的位置,从而表示出目标对象的空间位置:。其中 b_xleft 和 b_ytop 表示矩形的左上角点,b_xright 和 b_ybottom 表示矩形的右下角点。角度 θ 表示矩形从下边缘旋转的角度。
Geo Chat 采用 CLIP-ViT(L-14) 的预训练视觉主干,其输入图像的分辨率为 336x336,并在基于变换器的 CLIP 模型中对位置编码进行插值,以此来将输入图像的尺寸放大到 504x504。使得模型能够处理更大尺寸的图像,并支持高分辨率遥感影像中更好的视觉基础。
从冻结的 CLIPViT 中使用具有一个隐藏层的 MLP 适配器,将维度为 1024 的输出标记投影到语言模型空间上。适配器的输入维度为 1024,并输出大小为 4096 的向量,这对应于 LLM 的输入大小。使用 GeLU 作为激活函数。
Geo Chat 以开源的 Vicuna-v1.5 大型语言模型作为基础。为了完成不同的视觉语言任务,模型直接依赖于 Vicuna-v1.5 的语言标记,并采用基于低秩自适应(LoRA)的策略对 LLM 进行微调。在训练过程中,在 LoRA 中对两个较小的矩阵进行微调,使其近似于原始较大的矩阵。之后将微调后的适配器输入预训练模型并用于推理。
为了提高 Geo Chat 在一般视觉任务上的有效性并优化训练效率,本文使用预训练的 CLIP-ViT(L-14) 编码器在大量文本和视觉数据上进行训练,使用预训练的 MLP 适配器,在带有 BLIP 描述的 LAION-CC-SBU数据集的 558K 子集上进行预训练,并使用 Vicuna-v1.5 初始化模型。
为了使模型适应遥感图像,本文随后对 LLM 进行了LoRA 微调,同时在训练期间保持 MLP 适配器和 CLIP 编码器冻结。
本文使用 LLM Vicuna 通过呈现和管理关于遥感影像的多轮对话的各种指令跟随数据来调整模型以遵循一系列指令。 本文提供系统指令作为提示,要求 Vicuna 以可视化图像的方式来生成多轮问题和答案对。
指令集的创建过程如下:
本文使用预训练的 CLIP-ViT 和 Vicuna-v1.5 初始化模型权重,并使用 LoRA 微调。利用 LoRA,本文通过低秩自适应来细化参数 W_q 和 W_v,指定秩 r 设置为64。
对于场景分类,本文使用 AID 和 UCMerced 来评估模型。本文使用所有类提示模型,并仅使用一个单词/短语提示来对图像进行分类。例如,输入一个提示:“将图像分类在给定的类中:密集住宅区,......,学校。用一个单词或短语来回答”。本文计算了 AID 和 UCMerced 的零样本精度(zero-shot accuracy),结果如下所示:
用 RSVQA-HRBEN 数据集和 RSVQA-LR 数据集进行评估,前者有 3 种问题类型:存在、比较和计数,而后者有四类不同的问题:存在、比较、农村/城市和计数。实验结果如下:
对于遥感中的 VG 任务,本文提出了一个新的基准,包含不同的参考任务和基础训练的任务。本文用 SAMRS 数据集中的验证集,并使用与第 4 节中相同的数据集创建管道来构建测试基准。本文使用 acc@0.5 作为评估度量,即如果预测框与地面实际框的重叠面积超过 0.5IoU,则认为是计算正确的结果。
实验结果如下,其中 [refer] 是指使用表 3 中的 a2、a3 或 a4中的一个属性引用的对象,[grounding] 是指使用表 3 中 a1-a5 的属性组合引用的对象:
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。