当前位置:   article > 正文

【论文小记】Qwen-VL

qwen-vl

论文地址:https://arxiv.org/pdf/2308.12966.pdf

以下仅为个人理解,请以原文为准

在这里插入图片描述
在这里插入图片描述

该文为阿里的 Qwen 系列的视觉拓展。
下面简述与LLAVAMini-GPT4 的几个主要不同点。

  1. 在pretraining(训练的第一小步)阶段,更新了ViT, LLAVA和Mini-GPT4未更新 ViT
  2. 大语言基座为阿里家的Qwen, 非 LLaMA 或 Vicuna
  3. 图像token与文本token的对齐方式不同;
    • Qwen-VL 加入Learnable Query Embeds 与图像token做Cross Attension;
    • Mini-GPT4 为线性映射,
    • LLaVA v1.5 为两层全连接, Linear | GELU | Linear
声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/菜鸟追梦旅行/article/detail/343071
推荐阅读
相关标签
  

闽ICP备14008679号