赞
踩
目录
文章标题:《InternVL: Scaling up Vision Foundation Models and Aligning for Generic Visual-Linguistic Tasks》
发表年份及会议:CVPR2024
文章地址:
代码地址:
视觉语言的基础模型没有跟上大语言模型的发展步伐,因此作者提出了一个大规模的视觉语言基础模型,并应用于多个通用视觉语言任务上
同时,视觉模型与语言大模型之间的对齐有多种限制:
①参数量的差异。大语言模型的参数量通常是视觉模型的1000倍,使得视觉模型不能很好利用大模型的性能
②表达不一致。视觉模型和大模型之间数据的表达是不同的
③不高效的连接。glue层不能捕捉丰富的跨模态连接和依赖
作者的贡献如下:
- 提出大规模的视觉语言基础模型——InternVL
- 提出稳定的图像-文本对齐策略
- 模型在多个视觉语言任务上达到SOTA
作者选择ViT作为视觉Encoder,并扩大到60亿参数,得到InternViT-6B模型,为了平衡精度、速度和稳定性,作者还进行了超参搜索
作者使用基于预训练多语言LLaMA的QLLaMA来对齐视觉和语言特征,并添加了96个可学习的query和交叉注意力层
1)第一阶段的LLaMA的参数共享给QLLaMA用于初始化,使得InternViT产生的视觉token能够和大语言模型的表达对齐
2)QLLaMA的参数相比之前的方法更大,能够维持性能的稳定
3)可以用于多个任务
作者针对不同的任务提供了不同的推理架构:
- 对于视觉感知任务,可使用InternViT作为骨干
- 对于对比学习任务,采用(a)和(b),(a)池化InternViT的视觉特征或QLLaMA的query特征得到If;(b)从[EOS]token中提取特征得到Tf,然后计算If和Tf的相似度分数
- 对于生成学习任务/多模态对话任务,采用(c)和(d),(c)只使用InternViT;(d)运用QLLaMA重组InternViT的表达作为前缀文本
运用对比学习对齐InternViT和LLaMA,选用有噪声数据进行训练,最小化相似度分数的交叉熵损失
让QLLaMA继承LLaMA的权重,选用高质量数据进行训练,只训练可学习的query和交叉注意力层,损失由三个部分组成
通过MLP层连接InternVL和大模型Decoder(Vicuna),仍然采用高质量数据训练,构建多模态对话系统
图像分类:数据集ImageNet-1K
语义分割:数据集为ADE20K
零样本图像分类
零样本视频分类
作者设计了一个大规模的视觉语言基础模型InternVL,扩大了视觉基础模型的参数,并对齐视觉和大模型之间的表达,在一系列通用视觉语言任务上达到了SOTA
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。