赞
踩
研究了一段时间的多模态,作为本科生研究略浅,论文看的不多,这里只是写一下自己的思考。
起因是做FND的工作,Fake News Detecion 看了相关工作后,也算是接触到了一些多模态核心的内容,特此总结。因为作者论文看的不多,文章的想法和叙述可能借鉴前辈。
感觉研究多模态方向关注于文本 + 图像 预训练模型,比如 VILBERT, LXMERT,VLP 等,这些方法大都通过bert language modeling对齐模态,优势或干脆加入其他约束对齐,比如辅助任务,或者比较火的contrastive learning loss, 但是这些任务的不足之处明显,再视觉特征提取的方面,主要是借助Faster-Rnn(目标检测领域)得到的Rol特征,会得到一个非端到端的模型,什么是非端到端的模型呢,就是将问题子模块话,俗称分治法,分治法有一个弊病,子问题从的最优解到全局最优解是不确定的,尤其是在数据量庞大的数据集上,非端到端会表现出劣势(源自吴恩达老师),端到端虽然有黑盒问题,但是表现好一点。
上述问题的指出在VILT里面指出过,另外还指出单塔和双塔模型架构(单流和双流),还有align和 Fuse两个派系,对应light fusion和heavy fusion。
一般前者多为双塔架构,例如CLIP和ALIGN 重点在于多模态的对齐。后者主要是使用transformer 作为attention作为模态融合的方式,融合的结构非常的重,比如VLP,VINVL。
据王宁老师的观点(知乎上看到的),双塔和单塔出现隐隐融合趋势,双塔作为底座,单塔模型在上层融合,同时作者认为transformer中的attention确实存在不同特征空间(multi-head),以及全局范围特征聚合(non-local)能力,适合于多模态对齐和融合,是一个多模态的重要技术手段。这就是“align before fuse”.
包括现在SOHO(CVPR2021)BLIP这种最新的并且优秀的论文大致设计思路就是以上提到了。我自己写模型的时候也是思考过clip后面加attention是否还可以更好的对齐特征等问题,发现和其实和其他优秀的文章也有一些相似的思考,所以还是要激励自己多看看目前顶会的文章,思路走在前面,不要搞的很闭塞,也是希望自己在巨人的肩膀上摘苹果的时候要多注意不要只会做fine-tune,自己的创新,和对模型的本质理解于思考也是要多加注意。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。