赞
踩
近年来,多模态大语言模型(MLLMs)的出现彻底改变了多模态学习的格局。这些模型,例如LLaVA、MiniGPT4和GPT4-Vision,在各种多模态任务中展现出令人惊叹的能力。然而,由于MLLMs通常包含数十亿个参数,对所有参数进行微调变得非常具有挑战性。
为了解决这个问题,本文研究了针对MLLMs的参数高效微调(PEFT)方法。我们的目标是在仅训练少量参数的情况下,找到提高MLLMs性能的有效方法。
传统的参数微调方法需要对模型的所有参数进行训练,这对于大型模型来说成本高昂且耗时。而PEFT方法则通过只训练模型中一小部分参数来实现高效的微调。
本文研究了四种常用的PEFT方法:LoRA、IA3、Adapter和Prefix-Tuning。这些方法通过不同的方式在模型中添加可训练参数,从而在保持模型整体结构不变的情况下,提升模型在特定任务上的表现。
与单模态LLMs不同,MLLMs引入了额外的模块:视觉编码器和连接层。连接层负责将视觉信息与文本信息进行融合,并将融合后的信息传递给LLM进行处理。
本文重点研究了连接层在PEFT中的作用。我们发现,对连接层进行微调通常可以提高MLLMs在各种多模态任务上的性能。
为了评估不同PEFT方法的性能,我们对三个包含连接层的MLLMs进行了实验:LLaVA-1.5(7B、13B)、ShareGPTv4(7B)和Qwen-VL-Chat(7B)。实验结果表明:
除了评估不同PEFT方法的性能,我们还对PEFT方法的一些关键问题进行了深入研究:
本文的研究表明,PEFT方法是提高MLLMs性能的一种有效方法。未来,我们将继续探索PEFT方法的潜力,并研究如何将PEFT方法应用于更多类型的MLLMs和多模态任务。
参考文献
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。