[多模态大模型面试]InstructBLIP_大模型后缀 instruct

作者：寸_铁 | 2024-08-01 01:07:28

踩

大模型后缀 instruct

请详述多模态大模型如Llava、instructBLIP、Qwen-VL，以及他们之间的区别

多模态大模型 LLaVA、InstructBLIP 和 Qwen-VL 之间的主要区别如下:

LLaVA15:
- LLaVA 是一个端到端训练的大型多模态模型，将视觉编码器和大型语言模型(LLM)连接起来实现通用的视觉和语言理解。
- LLaVA 在多模态聊天能力和科学问答任务上表现出色，相比 GPT-4 有 85.1% 的相对得分。
- LLaVA 通过 Pre-training + Instruction Tuning 的方式进行训练，大大简化了训练过程。
InstructBLIP23:
- InstructBLIP 是基于自研的 Qwen 模型实现的大规模视觉语言模型。
- InstructBLIP 在理解、定位、文本识别等多个视觉语言任务上取得了SOTA水平。
- InstructBLIP 采用了位置感知的视觉-语言适配器来提升模型的效率和性能。
Qwen-VL

声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：【wpsshop博客】