当前位置: article > 正文

论文浅尝 | Multimodal Few-Shot Learning with Frozen Language Models

作者：Cpp五条 | 2024-06-15 15:24:24

踩

multimodal few-shot learning with frozen language models

笔记整理：李磊，浙江大学硕士，研究方向为自然语言处理链接：https://arxiv.org/abs/2106.13884

动机

大规模的自回归语言模型（如GPT）在预训练阶段学习到了大量的知识，具有很好的学习新任务的能力，给定几个“任务示例”，模型可以很快的学习到任务形式并回答新问题，但这种能力仅限于文本领域。

Prompt tuning通过添加提示信息，充分挖掘预训练语言模型蕴含的知识，在few-shot场景下取得了良好的效果。

作者提出了Frozen，利用Visual Encoder对图片进行编码，编码得到的结果作为prompt与文本一起送入语言模型中，试图将大规模语言模型和prompt应用于多模态领域。在VQA、OKVQA、miniImageNet等多个数据集的多模态few-shot场景下进行了实验，结果表明Frozen有效的利用了预训练语言模型的先验知识，具有很好的迁移学习能力。

模型结构

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/Cpp五条/article/detail/722804