赞
踩
以下是AMiner今日推荐的两篇论文详细内容介绍:
论文名称:
(1) Unifying Vision-and-Language Tasks via Text Generation
(2)Multimodal Few-Shot Learning with Frozen Language Models
论文链接:
(1)https://www.aminer.cn/pub/601d3fe591e011945792250c?f=cs
(2)https://www.aminer.cn/pub/60dbbedb91e0117bb69ae3e9?f=cs
首先介绍一下prompt和fine-tuning范式本质上有什么区别,然后介绍一下NLP中基于prompt的PET和AutoPrompt方法,最后介绍一下VLM任务中应用prompt范式的CLIP和CoOp方法。
另外,CLIP和CoOp都是基于prompt的判别式VLM方法,最近还有几篇基于prompt生成式VLM方法,基于prompt的生成式VLM和基于prompt的NLP方法非常类似。
因为CoOp是class-level的自适应,不能根据输入图片的不同动态变化prompt,如果能够根据输入图片动态调整prompt的话,也就是instance-level的自适应,可能会有奇效。learnable context的作用类似于去噪,让网络拟合噪声,使得预测部分的关注区域更为干净。感觉learnable context和ViT中的object query的功能非常相似,都是任意学习出信息,只根据最后的监督信号更新参数。后续可以挖掘一下如何控制learnable context的学习,来提升基于prompt的VLM性能。生成式的VLM也可以探索一下如何设计prompt更合理。
另外就是纯CV方向的prompt,也就是类似于ViT将图片拆分patch,每个patch实际上可以看成一个字符,那么也可以设计patch的prompt对模型进行训练,这其中也可以分成生成式(类似ViT)和判别式(类似self-supervised)两种方法。
AMiner,让AI帮你理解科学!
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。