Prompt—从CLIP到CoOp，Visual-Language Model新范式_coop clip

作者：小舞很执着 | 2024-08-18 17:19:49

踩

coop clip

以下是AMiner今日推荐的两篇论文详细内容介绍：
论文名称：
(1) Unifying Vision-and-Language Tasks via Text Generation
(2)Multimodal Few-Shot Learning with Frozen Language Models
论文链接：
(1)https://www.aminer.cn/pub/601d3fe591e011945792250c?f=cs
(2)https://www.aminer.cn/pub/60dbbedb91e0117bb69ae3e9?f=cs
首先介绍一下prompt和fine-tuning范式本质上有什么区别，然后介绍一下NLP中基于prompt的PET和AutoPrompt方法，最后介绍一下VLM任务中应用prompt范式的CLIP和CoOp方法。
另外，CLIP和CoOp都是基于prompt的判别式VLM方法，最近还有几篇基于prompt生成式VLM方法，基于prompt的生成式VLM和基于prompt的NLP方法非常类似。
因为CoOp是class-level的自适应，不能根据输入图片的不同动态变化prompt，如果能够根据输入图片动态调整prompt的话，也就是instance-level的自适应，可能会有奇效。learnable context的作用类似于去噪，让网络拟合噪声，使得预测部分的关注区域更为干净。感觉learnable context和ViT中的object query的功能非常相似，都是任意学习出信息，只根据最后的监督信号更新参数。后续可以挖掘一下如何控制learnable context的学习，来提升基于prompt的VLM性能。生成式的VLM也可以探索一下如何设计prompt更合理。

另外就是纯CV方向的prompt，也就是类似于ViT将图片拆分patch，每个patch实际上可以看成一个字符，那么也可以设计patch的prompt对模型进行训练，这其中也可以分成生成式(类似ViT)和判别式(类似self-supervised)两种方法。
AMiner,让AI帮你理解科学！
在这里插入图片描述

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/小舞很执着/article/detail/998357