当前位置:   article > 正文

论文精读——InternVL_intern-vl论文 csdn

intern-vl论文 csdn

目录

1.研究概述

2.论文创新

2.1 模型架构——训练

2.1.1 大规模视觉Encoder——InternViT

2.1.2 语言中间件——QLLaMA

2.2 模型架构——推理

2.3 对齐策略

2.3.1 stage1:对比训练

2.3.2 stage2:生成训练

2.3.3 stage3:有监督微调

3.实验

3.1 InternViT的视觉感知能力

3.2 视觉语言任务

3.3 多模态对话能力

4.总结


文章标题:《InternVL: Scaling up Vision Foundation Models and Aligning for Generic Visual-Linguistic Tasks》

发表年份及会议:CVPR2024

文章地址:

InternVL: Scaling up Vision Foundation Models and Aligning for Generic Visual-Linguistic Tasks (arxiv.org)icon-default.png?t=N7T8https://arxiv.org/abs/2312.14238

代码地址:

[CVPR 2024 Oral] InternVL Family: A Pioneering Open-Source Alternative to GPT-4Vicon-default.png?t=N7T8https://github.com/OpenGVLab/InternVL

1.研究概述

视觉语言的基础模型没有跟上大语言模型的发展步伐,因此作者提出了一个大规模的视觉语言基础模型,并应用于多个通用视觉语言任务上

同时,视觉模型与语言大模型之间的对齐有多种限制:

参数量的差异。大语言模型的参数量通常是视觉模型的1000倍,使得视觉模型不能很好利用大模型的性能

表达不一致。视觉模型和大模型之间数据的表达是不同的

③不高效的连接。glue层不能捕捉丰富的跨模态连接和依赖

2.论文创新

作者的贡献如下:

  • 提出大规模的视觉语言基础模型——InternVL
  • 提出稳定的图像-文本对齐策略
  • 模型在多个视觉语言任务上达到SOTA

2.1 模型架构——训练
2.1.1 大规模视觉Encoder——InternViT

作者选择ViT作为视觉Encoder,并扩大到60亿参数,得到InternViT-6B模型,为了平衡精度、速度和稳定性,作者还进行了超参搜索

2.1.2 语言中间件——QLLaMA

作者使用基于预训练多语言LLaMA的QLLaMA来对齐视觉和语言特征,并添加了96个可学习的query和交叉注意力层

1)第一阶段的LLaMA的参数共享给QLLaMA用于初始化,使得InternViT产生的视觉token能够和大语言模型的表达对齐

2)QLLaMA的参数相比之前的方法更大,能够维持性能的稳定

3)可以用于多个任务

2.2 模型架构——推理

作者针对不同的任务提供了不同的推理架构:

  • 对于视觉感知任务,可使用InternViT作为骨干
  • 对于对比学习任务,采用(a)和(b),(a)池化InternViT的视觉特征或QLLaMA的query特征得到If;(b)从[EOS]token中提取特征得到Tf,然后计算If和Tf的相似度分数
  • 对于生成学习任务/多模态对话任务,采用(c)和(d),(c)只使用InternViT;(d)运用QLLaMA重组InternViT的表达作为前缀文本

2.3 对齐策略
2.3.1 stage1:对比训练

运用对比学习对齐InternViT和LLaMA,选用有噪声数据进行训练,最小化相似度分数的交叉熵损失

2.3.2 stage2:生成训练

让QLLaMA继承LLaMA的权重,选用高质量数据进行训练,只训练可学习的query和交叉注意力层,损失由三个部分组成

2.3.3 stage3:有监督微调

通过MLP层连接InternVL和大模型Decoder(Vicuna),仍然采用高质量数据训练,构建多模态对话系统

3.实验

3.1 InternViT的视觉感知能力

图像分类:数据集ImageNet-1K

语义分割:数据集为ADE20K

3.2 视觉语言任务

零样本图像分类

零样本视频分类

3.3 多模态对话能力

4.总结

作者设计了一个大规模的视觉语言基础模型InternVL,扩大了视觉基础模型的参数,并对齐视觉和大模型之间的表达,在一系列通用视觉语言任务上达到了SOTA

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/煮酒与君饮/article/detail/909983
推荐阅读
相关标签
  

闽ICP备14008679号