VLM 系列——Qwen-VL 千问—— 论文解读_qwen 论文

作者：从前慢现在也慢 | 2024-03-31 04:10:47

踩

qwen 论文

一、概述

1、是什么

Qwen-VL全称《Qwen-VL: A Versatile Vision-Language Model for Understanding, Localization, Text Reading, and Beyond》，是一个多模态的视觉-文本模型，当前 Qwen-VL（20231707）可以完成：图像字幕、视觉问答、OCR、文档理解和视觉定位功能，同时支持多语言对话、多图像交错对话、细粒度识别。基于Qwen- 7b (非最终版本权重)语言模型，通过引入一个新的视觉感受器（包括一个语言对齐的视觉编码器和一个位置感知适配器），赋予LLM基础视觉能力。整体模型架构和输入输出接口都非常简洁，精心设计了一个3阶段的训练流水线，在大量的图像-文本语料库上优化整个模型。

Qwen-VL表示多任务训练后的模型，Qwen-VL-chat是基于Qwen-VL的指令调优（第三阶段SFT——监督微调）后的视觉语言聊天机器人。

截止20240128后续又出了Qwen-VL-plus、Qwen-VL-MAX，但是目前没有论文和开源，其中Qwen-VL-MAX已经和GPT-4V抗衡，所以还是得端到端大力训啊，狗头狗头。

2、亮点

*领先的性能：与同类产品相比，Qwen-VL在大量以视觉为中心的理解基准上实现了顶级的准确性。此外，Qwen-VL的出色表现不仅涵盖了传统的基准(如字幕、问答、接地气)，还包括最近引入的一些对话基准

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/从前慢现在也慢/article/detail/343062