当前位置: article > 正文

[RIS]Bridging Vision and Language Encoders

作者：运维做开发 | 2024-08-22 02:05:27

踩

1. BaseInfo


Title	Bridging Vision and Language Encoders: Parameter-Efficient Tuning for Referring Image Segmentation
Adress	https://arxiv.org/pdf/2307.11545
Journal/Time	ICCV 2023
Author	中山大学 / 港中文(深圳) / 腾讯人工智能实验室 / 复旦大学人工智能创新与产业研究院
Code	https://github.com/kkakkkka/ETRIS
Read	20240815
Table	#VisonLanguage #referring image segmentation #efficient tuning

2. GAP->Creative Q&A

参考图像分割的参数高效微调Parameter Efficient Tuning (PET)，多数任务限定了单模态的微调或简单的分类任务 -> Bridger 引入特定任务信息，跨模态信息交互。(将一些已经训练好的 backbone 固定，只训练部分参数)
轻量解码头。

3. Concrete

网络整体结构

3.1. Model

a frozen vision-language backbone 参数冻结的 Backbone。
a tunable Bridger 可微调的桥接模块。
a task-specific decoder 特定解码模块

3.1.1. Input

图片 416 $\times$ 416 $\times$ 3+文本 Token 长度 L (RefCOCO and RefCOCO+ 17 words, G-Ref 22 words)

3.1.2. Backbone

Image :
- 基于 CNN 的 ResNet； ResNet-50 / ResNet-101
- 基于 Transformer 的 ViT；ViT-Base
Text: CLIP

3.1.3. Neck

Bridger:(结合论文结构图中的相关部分一起看)

视觉特征通过 Zoom Layer(结合卷积提取特征) , 语言特征通过 Linear。
Interactor (ITA) 特征融合。

多头自注意力 + 交叉注意力 + FFN
视觉特征通过 Zoom Layer , 语言特征通过 Linear，维度映射回去，加在 Backbone 的特征图上。

3.1.4. Decoder

特定解码头

分层对齐模块。输入是不同尺度的视觉特征和最后得到的全局特征，利用 1x1 卷积聚合特征。
全局对齐模块。
Transformer Decoder + Projector

3.1.5. Loss

文本到像素的对齐损失。
![[Pasted image 20240807092249.png]]

3.2. Training

Name	Value
epoch	50
batch size	32
optimizer	Adam λ = 0.0001
Bridger	λ = 0.001 for ViT and λ = 0.0001 for ResNet. decrease the learning rate by 0.1 at the 35th epoch
TextEncoder	64
Transformer Decoder	3 层，each with 8 heads and a feed-forward hidden dimension of 512.
Projector	卷积核为 3

推理时，将预测结果上采样到原始图像大小，并以 0.35 为阈值进行二值化处理，得出最终结果，而无需任何额外的后处理。

3.2.1. Resource

A100 * 2 with 40 GPU VRAM

3.2.2 Dataset

这三个自然图像领域参考图像分割的经典数据集了。

Name	Images Number	references	reference expressions
RefCOCO	19,994	50,000	142,209
RefCOCO+	19,992	49,856	141,564
G-Ref	26,711	54,822	104,560

3.3. Eval

Intersection over Union (IoU) and Precision@X ，X ∈ 0.5, 0.6, 0.7, 0.8, 0.9
表中结果是 oIoU
在这里插入图片描述

3.4. Ablation

Effect of Bridger’s number and position， Bridger 数量和位置的作用：范围的扩大能提高性能，而桥接器的数量则影响不大。
Effect of ZL’s component. Zoom Layer 的组成 :使用卷积层和解卷积层进行放大和缩小操作在性能和参数之间取得了最佳平衡。这些结果表明，通过利用基于卷积的操作，我们可以调整特征图的大小，以方便即将进行的注意力操作，并增强特征图的局部信息.
Effect of Bridger, Hierarchical Alignment Module (HA) and Global Alignment Module (GA). 解码头的 HA 、GA 和 Bridger 的有效性。

4. Reference

论文Bridging Vision and Language Encoders: Parameter-Efficient Tuning for Referring Image Segmentation (刚开始接触这个领域的时候几乎看的都是这个博主的内容，写的都很好！）

CRIS: CLIP-Driven Referring Image Segmentation (CVPR2022)
Parameter-efficient transfer learning for nlp.
Vl-adapter: Parameter-efficient transfer learning for vision-and-language tasks.

5. Additional

含附录：

分析：
将 MDETR 的视觉主干与文本编码器连接起来，同时固定双编码器的参数。此外，我们还加入了一个 FPN（特征金字塔网络），以有效合并来自不同阶段的特征图。融合后的特征图将被输送到解码转换器。 (1) 将类别名称视为文本进行语义分割；(2) 结合 FPN 网络进行对象检测；(3) 对解码器稍作修改进行分类。分数可达 88.37.

Effect of Bridger’s hidden dim : 64 层最好。
和 Adapter 结合。

在这里插入图片描述

局限性：
相似数字的混淆。物体密度高时分割不稳定。
未来的研究工作可能需要侧重于增强模型对语言信息的理解能力，并提高其在多目标场景中准确分割被遮挡物体的应变能力。

目前在分割领域对遮挡物体，小目标的分割性能还是可以提升的。
实验还是挺充分的。

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/运维做开发/article/detail/1014336