赞
踩
Title | Bridging Vision and Language Encoders: Parameter-Efficient Tuning for Referring Image Segmentation |
Adress | https://arxiv.org/pdf/2307.11545 |
Journal/Time | ICCV 2023 |
Author | 中山大学 / 港中文(深圳) / 腾讯人工智能实验室 / 复旦大学人工智能创新与产业研究院 |
Code | https://github.com/kkakkkka/ETRIS |
Read | 20240815 |
Table | #VisonLanguage #referring image segmentation #efficient tuning |
图片 416 × \times × 416 × \times × 3+文本 Token 长度 L (RefCOCO and RefCOCO+ 17 words, G-Ref 22 words)
Bridger:(结合论文结构图中的相关部分一起看)
视觉特征通过 Zoom Layer(结合卷积提取特征) , 语言特征通过 Linear。
视觉特征通过 Zoom Layer , 语言特征通过 Linear,维度映射回去,加在 Backbone 的特征图上。
特定解码头
文本到像素的对齐损失。
Name | Value |
---|---|
epoch | 50 |
batch size | 32 |
optimizer | Adam λ = 0.0001 |
Bridger | λ = 0.001 for ViT and λ = 0.0001 for ResNet. decrease the learning rate by 0.1 at the 35th epoch |
TextEncoder | 64 |
Transformer Decoder | 3 层 ,each with 8 heads and a feed-forward hidden dimension of 512. |
Projector | 卷积核为 3 |
推理时,将预测结果上采样到原始图像大小,并以 0.35 为阈值进行二值化处理,得出最终结果,而无需任何额外的后处理。
A100 * 2 with 40 GPU VRAM
这三个自然图像领域参考图像分割的经典数据集了。
Name | Images Number | references | reference expressions |
---|---|---|---|
RefCOCO | 19,994 | 50,000 | 142,209 |
RefCOCO+ | 19,992 | 49,856 | 141,564 |
G-Ref | 26,711 | 54,822 | 104,560 |
Intersection over Union (IoU) and Precision@X ,X ∈ 0.5, 0.6, 0.7, 0.8, 0.9
表中结果是 oIoU
Effect of Bridger’s number and position, Bridger 数量和位置的作用: 范围的扩大能提高性能,而桥接器的数量则影响不大。
Effect of ZL’s component. Zoom Layer 的组成 :使用卷积层和解卷积层进行放大和缩小操作在性能和参数之间取得了最佳平衡。这些结果表明,通过利用基于卷积的操作,我们可以调整特征图的大小,以方便即将进行的注意力操作,并增强特征图的局部信息.
Effect of Bridger, Hierarchical Alignment Module (HA) and Global Alignment Module (GA). 解码头的 HA 、GA 和 Bridger 的有效性。
论文Bridging Vision and Language Encoders: Parameter-Efficient Tuning for Referring Image Segmentation (刚开始接触这个领域的时候几乎看的都是这个博主的内容,写的都很好!)
CRIS: CLIP-Driven Referring Image Segmentation (CVPR2022)
Parameter-efficient transfer learning for nlp.
Vl-adapter: Parameter-efficient transfer learning for vision-and-language tasks.
含附录 :
分析:
将 MDETR 的视觉主干与文本编码器连接起来,同时固定双编码器的参数。此外,我们还加入了一个 FPN(特征金字塔网络),以有效合并来自不同阶段的特征图。融合后的特征图将被输送到解码转换器。 (1) 将类别名称视为文本进行语义分割;(2) 结合 FPN 网络进行对象检测;(3) 对解码器稍作修改进行分类。分数可达 88.37.
局限性:
相似数字的混淆。 物体密度高时分割不稳定。
未来的研究工作可能需要侧重于增强模型对语言信息的理解能力,并提高其在多目标场景中准确分割被遮挡物体的应变能力。
目前在分割领域对遮挡物体,小目标的分割性能还是可以提升的。
实验还是挺充分的。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。