赞
踩
大多数现有的VLP模型大多仅仅在understanding-based tasks 或者 generation-based tsaks表现良好,但很少在这两方面都能取得较好的结果。
同时,性能的增大往往来自于数据集的扩大,但是现有的数据集大多数是web网络上采集下来的img-text pair。这些大规模从网络上采集下来的数据往往包含大量的noise,不利于模型的训练。
基于以上两点,作者提出了BLIP模型,能灵活的解决understanding-based tasks和generation-based tasks。同时运用知识蒸馏的思想,利用一个captioner和一个filter生成 synthetic captions和过滤掉noisy的pair,最终获得bootstrapping dataset,送入下一次pre-train。
如上图所示captioner通过web图片生成caption,filter分别判断原来的web上的text与生成的caption是否是noise,如果是,则过滤掉。
如上图所示,整个MED包含了三个部分;
显然,经由上述的三个模块,这个MED模型就拥有了同时匹配generation-based tasks和understanding-based tasks的能力。
本文在pre-training的时候使用了三个objectives,分别是两个understanding-based objectives和一个generatin-based objectives。
由于大规模预训练的文本-图片对通常是从web上找出来的,该文本通常无法准确描述图像的视觉内容,从而使它们成为嘈杂的信号,对于学习视觉语言对齐不是最佳的。
由此,作者提出了一个CapFilt架构用来提高image-text pair的质量。
如上图所示,其中( I w , T w I_w,T_w Iw,Tw)代表web image-text pair,( I h , T h I_h,T_h Ih,Th)代表高质量的手工标注的image-text pair。
它引入了两个模块:一个基于web图像生成caption的captioner,以及一个用于去除image-text pair噪声的filter。captioner和filter都是从同一个预训练过的MED模型中初始化的,并在COCO数据集上单独微调。微调是一个轻量级的过程。
整个过程大概为:先进行pre_train,之后利用 I h , T h I_h,T_h Ih,Th分别对captioner和filter进行finetune,captioner给定web图片生成对应的caption,filter利用ITM判断web图片-文字对和web图片-生成caption对是否match,如果不match,则过滤掉,最后将过滤后剩余的图片-文字对和 I h , T h I_h,T_h Ih,Th合在一起pre_train一个新model。个人理解比较像一个新颖的online self-knowledge distillation。
上图是提出的captioner和filter对最后结果的影响。
上图是parameters sharing策略对最后结果的影响。
上图是image-text retirval中与其他SOTA任务的对比,可以看出有较大提升。
上图是与其他image caption SOTA方法的对比
上图是与其他VQA,NLVR SOTA方法的对比
上面是VisDial和text-to-video SOTA方法的对比
上面是video question SOTA方法的对比
作者提出的BLIP架构在大范围的downstream任务上达到了SOTA的效果,其中包括了understanding-based tasks和generation-based tasks。同时模型使用了一种dataset bootstrapping的方法来解决web中收集的大量noisy数据的问题。
作者还提出有几个潜在的方法可能可以提高BLIP的性能:
赞
踩
赞
踩
赞
踩
赞
踩
赞
踩
赞
踩
赞
踩
赞
踩
赞
踩
赞
踩
赞
踩
赞
踩
赞
踩
赞
踩
赞
踩
赞
踩
赞
踩
赞
踩
赞
踩
赞
踩
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。