【提示学习论文】TCP:Textual-based Class-aware Prompt tuning for Visual-Language Model

作者：羊村懒王 | 2024-05-22 01:56:23

踩

TCP:Textual-based Class-aware Prompt tuning for Visual-Language Model（CVPR2024）

基于文本的类感知提示调优的VLM
KgCoOp为baseline，进行改进，把 $w_{clip}$ 进行投影，然后与Learnable prompts进行结合。

Abstract

近年来，通过可学习的域共享或图像条件的文本tokens，促进生成适用于特定任务的分类器

问题：
这些textual tokens对unseen域具有有限的泛化能力，不能动态地适应测试类的分布

解决：
提出了新的基于文本的类感知提示调优（TCP，Textual-based Class-aware Prompt）。显式地结合关于类的先验知识，增强它们的可辨别性。利用文本知识嵌入（TKE），映射高泛化性的类级文本知识，到类感知文本tokens。通过无缝地将这些类感知提示集成到Text Encoder中，可以生成一个动态的类感知分类器，以增强对不可见域的可辨别性。
推断阶段，TKE动态地生成与unseen类相关的类感知提示，可作为即插即用的模型与现有方法轻松结合。