当前位置:   article > 正文

qwen-vl_pytorch大规模视觉语言模型

qwen-vl_pytorch大规模视觉语言模型

Qwen-VL

Qwen-VL 是阿里云研发的大规模视觉语言模型(Large Vision Language Model, LVLM)。Qwen-VL 可以以图像、文本、检测框作为输入,并以文本和检测框作为输出。

论文

模型结构

Qwen-VL的多语言视觉语言模型系列,基于Qwen-7B语言模型。该模型通过视觉编码器和位置感知的视觉语言适配器,赋予语言模型视觉理解能力。

算法原理

Qwen-VL: Qwen-VL 以 Qwen-7B 的预训练模型作为语言模型的初始化,并以 Openclip ViT-bigG 作为视觉编码器的初始化,中间加入单层随机初始化的 cross-attention,经过约1.5B的图文数据训练得到。最终图像输入分辨率为448。

Qwen-VL采用了三阶段的训练流程,并在多个视觉语言理解基准测试中取得了领先的成绩。该模型支持多语言、多图像输入,具备细粒度的视觉理解能力。

另外,通过指令调优,生成了交互式的Qwen-VL-Chat模型,在现实世界用户行为的评估中展现出了优异的表现。总体而言,Qwen-VL系列模型在视觉语言理解任务上取得了显著的成果,并在开源社区中具有领先的地位。

环境配置

Docker(方法一)

光源拉取docker镜像的地址与使用步骤

  1. docker pull image.sourcefind.cn:5000/dcu/admin/base/pytorch:2.1.0-ubuntu22.04-dtk23.10.1-py310
  2. docker run -it -v /path/your_code_data/:/path/your_code_data/ -v /opt/hyhal/:/opt/hyhal/:ro --shm-size=64G --privileged=true --device=/dev/kfd --device=/dev/dri/ --group-add video --name qwen-vl <your imageID> bash
  3. cd /path/your_code_data/
  4. pip install -r requirements.txt -i http://mirrors.aliyun.com/pypi/simple/ --trusted-host mirrors.aliyun.com
  5. pip install -r requirements_web_demo.txt -i http://mirrors.aliyun.com/pypi/simple/ --trusted-host mirrors.aliyun.com

Dockerfile(方法二)

  1. cd /path/your_code_data/docker
  2. docker build --no-cache -t qwen-vl:latest .
  3. docker run --shm-size=64G --name qwen-vl -v /opt/hyhal:/opt/hyhal:ro --privileged=true --device=/dev/kfd --device=/dev/dri/ --group-add video -v /path/your_code_data/:/path/your_code_data/ -it qwen-vl:latest bash

Anaconda(方法三)

关于本项目DCU显卡所需的特殊深度学习库可从光合开发者社区下载安装。

  1. DTK驱动:dtk23.10
  2. python:python3.10
  3. torch:2.1
  4. torchvision: 0.16.0
  5. deepspped: 0.12.3

Tips:以上dtk驱动、python、paddle等DCU相关工具版本需要严格一一对应

  1. conda create -n qwen-vl python=3.10
  2. conda activate qwen-vl
  3. cd /path/your_code_data/
  4. pip install -r requirements.txt -i http://mirrors.aliyun.com/pypi/simple
  5. pip install -r requirements_web_demo.txt -i http://mirrors.aliyun.com/pypi/simple

数据集

迷你数据集 assets/mm_tutorial

预训练需要准备你的训练数据,需要将所有样本放到一个列表中并存入data.json文件中。每个样本对应一个字典,包含id和conversation,其中后者为一个列表。示例如下所示:用于正常训练的完整数据集请按此目录结构进行制备:

  1. [
  2. {
  3. "id": "identity_0",
  4. "conversations": [
  5. {
  6. "from": "user",
  7. "value": "你好"
  8. },
  9. {
  10. "from": "assistant",
  11. "value": "我是Qwen-VL,一个支持视觉输入的大模型。"
  12. }
  13. ]
  14. },
  15. {
  16. "id": "identity_1",
  17. "conversations": [
  18. {
  19. "from": "user",
  20. "value": "Picture 1: <img>https://qianwen-res.oss-cn-beijing.aliyuncs.com/Qwen-VL/assets/demo.jpeg</img>\n图中的狗是什么品种?"
  21. },
  22. {
  23. "from": "assistant",
  24. "value": "图中是一只拉布拉多犬。"
  25. },
  26. {
  27. "from": "user",
  28. "value": "框出图中的格子衬衫"
  29. },
  30. {
  31. "from": "assistant",
  32. "value": "<ref>格子衬衫</ref><box>(588,499),(725,789)</box>"
  33. }
  34. ]
  35. },
  36. {
  37. "id": "identity_2",
  38. "conversations": [
  39. {
  40. "from": "user",
  41. "value": "Picture 1: <img>assets/mm_tutorial/Chongqing.jpeg</img>\nPicture 2: <img>assets/mm_tutorial/Beijing.jpeg</img>\n图中都是哪"
  42. },
  43. {
  44. "from": "assistant",
  45. "value": "第一张图片是重庆的城市天际线,第二张图片是北京的天际线。"
  46. }
  47. ]
  48. }
  49. ]

训练

单机单卡

sh finetune/finetune_lora_single.sh

推理

执行多种任务时需要对以下参数进行修改,可使用中文指令,如下:

'image'= 图片路径

'text'= 任务需求

  1. query = tokenizer.from_list_format([
  2. {'image': 'https://qianwen-res.oss-cn-beijing.aliyuncs.com/Qwen-VL/assets/demo.jpeg'}, # Either a local path or an url
  3. {'text': 'Generate the caption in English with grounding:'},
  4. ])

单机单卡

python qwen_vl_inference.py

result

检测任务

车牌识别

火车票识别

应用场景

算法类别

ocr

热点应用行业

金融,教育,政府,科研,制造,能源,交通

预训练权重

预训练权重快速下载中心:SCNet AIModels

项目中的预训练权重可从快速下载通道下载: qwen-vl-chat

源码仓库及问题反馈

参考资料

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/空白诗007/article/detail/816954
推荐阅读
相关标签
  

闽ICP备14008679号