【论文小记】Qwen-VL

作者：菜鸟追梦旅行 | 2024-03-31 04:14:36

踩

qwen-vl

以下仅为个人理解，请以原文为准

在这里插入图片描述

该文为阿里的 Qwen 系列的视觉拓展。
下面简述与LLAVA 或 Mini-GPT4 的几个主要不同点。

在pretraining（训练的第一小步）阶段，更新了ViT， LLAVA和Mini-GPT4未更新 ViT
大语言基座为阿里家的Qwen，非 LLaMA 或 Vicuna
图像token与文本token的对齐方式不同；
- Qwen-VL 加入Learnable Query Embeds 与图像token做Cross Attension;
- Mini-GPT4 为线性映射，
- LLaVA v1.5 为两层全连接， Linear | GELU | Linear

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/菜鸟追梦旅行/article/detail/343071