当前位置:   article > 正文

MLM之InternVL:InternVL(GPT-4V的开创性开源替代品/通过开源套件缩小与商业多模态模型的差距)的简介、安装和使用方法、案例应用之详细攻略_internvl模型

internvl模型

MLM之InternVL:InternVL(GPT-4V的开创性开源替代品/通过开源套件缩小与商业多模态模型的差距)的简介、安装和使用方法、案例应用之详细攻略

目录

InternVL的简介

1、更新日志

2、文档

3、与SOTA VLLMs比较

4、InternVL能做什么?

视觉感知(点击展开)

跨模态检索(点击展开)

多模态对话(参见“与SOTA VLLMs比较”)

5、Model Zoo

Vision Large Language Model

Vision-Language Foundation Model

InternVL的安装和使用方法

1、安装

 T1、CLI使用

使用InternViT-6B(点击展开)

使用InternVL-C(对比)和InternVL-G(生成)(点击展开)

使用InternVL-Chat(点击展开)

通过LMDeploy进行推断加速

设置推断环境

离线推断管道

在线推断服务

2、使用方法

(1)、在线使用

InternVL的案例应用


InternVL的简介

InternVL将ViT扩展到6B参数,并将其与LLM对齐。InternVL是一个开源的多模态视觉语言模型系列,它可以解决视觉与语言交叉领域的各种任务。InternVL的主要特点和贡献包括:
>> 规模化:InternVL-Chat-V1。5模型参数达到34B,超过过去开源模型。核心视觉模型InternViT的参数6B,较ViT-22B明显扩大。
>> 性能强劲:InternVL在很多视觉语言评估任务上超过SOTA,如MMMU、DocVQA等成绩接近商业模型GPT-4V。语义分割mIoU也高GPT-4V几个点。
>> 多语言支持:InternVL不仅支持英语,还支持中文等其他语言,在多语言零画识别、翻译等任务上表现出色。
>> 可拓展性强:InternVL提供分级模型,2B参数mini版本的InternVL-Chat也具备很强功能。还提供8位整型版本进行高效推理。
>> 开放性:InternVL采用MIT许可,所有模型、代码和数据都开源在GitHub上,方便开发者参考和应用。
>> 全面性:InternVL不仅支援图像与文本对话任务,还可以解决图像分类、语义分割、视频分类、图像与文本匹配等任务。目标检测和实例分割也在持续研发中。
总之,InternVL是迄今最强大、全面和开放的视觉语言模型系列之一。它在规模、性能和可拓展性等方面超越以往开源工作,近似商业水平,为视觉语言领域的研究和应用奠定坚实基础。

GitHub地址:GitHub - OpenGVLab/InternVL: [CVPR 2024 Oral] InternVL Family: A Pioneering Open-Source Alternative to GPT-4V. 接近GPT-4V表现的可商用开源多模态对话模型

1、更新日志

2024/05/13:�� InternVL现在可以作为扩散模型的文本编码器,原生支持全球110多种语言的多语言生成。详见MuLan。

2024/04/28:我们发布了InternVL-Chat-V1-5的INT8版本,请见HF链接。

2024/04/28:我们在信息图表VQA基准测试上达到了SOTA性能(75.74),请见此处。

2024/04/18:InternVL-Chat-V1.5已在HF链接上发布,接近于在各种基准测试如MMMU、DocVQA、ChartQA、MathVista等上的GPT-4V和Gemini Pro的性能。

2024/02/27:InternVL被CVPR 2024接受!��

2024/02/24:InternVL-Chat模型已包含在VLMEvalKit中。

2024/02/21:InternVL-Chat-V1.2-Plus在MathVista(59.9)、MMBench(83.8)和MMVP(58.7)上取得了SOTA性能。详情请见我们的博客。

2024/02/12:InternVL-Chat-V1.2已发布。在MMMU val上达到51.6,在MMBench测试上达到82.3。更多详情,请参阅我们的博客、SFT数据或尝试我们的演示。该模型现已在HuggingFace上提供,并且训练/评估数据和脚本均为开源。

2024/02/04:InternVL-Chat-V1.1在MMVP上达到了44.67%,高于GPT-4V!

2024/01/27:我们发布了448分辨率模型,在MMBench dev上达到了76.6,请见此处。

2024/01/24:InternVL-Chat-V1.1发布,支持中文并具有更强大的OCR功能,请见此处或尝试我们的演示。

2024/01/16:我们发布了定制的mmcv/mmsegmentation/mmdetection代码,集成了DeepSpeed,可用于训练大规模目标检测和语义分割模型。

2、文档

如何安装环境? [链接]

如何复现InternVL-Chat-V1.2的SFT阶段? [链接]

如何在自定义数据集上微调InternVL-Chat-V1.2? [链接]

如何评估InternVL-Chat-V1-5? [链接]

如何使用VLMEvalKit评估InternVL-Chat-V1-5?(推荐)[链接]

如何部署本地演示? [链接]

如何在Nvidia V100 GPU上运行InternVL 1.5-8位? [链接] [中文教程]

如何执行批量推断? [链接]

LMDeploy进行推断加速 [链接] [中文教程]

  • How to install the environment? [link]
  • How to reproduce the SFT stage of InternVL-Chat-V1.2? [link]
  • How to fine-tune InternVL-Chat-V1.2 on a custom dataset? [link]
  • How to evaluate InternVL-Chat-V1-5? [link]
  • How to evaluate InternVL-Chat-V1-5 using VLMEvalKit? (Recommend) [link]
  • How to deploy a local demo? [link]
  • How to run InternVL 1.5-8bit with Nvidia V100 GPU? [link] [中文教程]
  • How to perform batch inference? [link]
  • Inference Acceleration by LMDeploy [link] [中文教程]

3、与SOTA VLLMs比较

4、InternVL能做什么?

视觉感知(点击展开)

  • Linear-Probe Image Classification [see details]

    ViT-22B uses the private JFT-3B dataset.

    method#paramIN-1KIN-ReaLIN-V2IN-AIN-RIN-Sketch
    OpenCLIP-G1.8B86.289.477.263.887.866.4
    DINOv2-g1.1B86.589.678.475.978.862.5
    EVA-01-CLIP-g1.1B86.589.377.470.587.763.1
    MAWS-ViT-6.5B6.5B87.8-----
    ViT-22B*21.7B89.590.983.283.887.4
    InternViT-6B (ours)5.9B88.290.479.977.589.869.1
  • Semantic Segmentation [see details]

    methoddecoder#param (train/total)crop sizemIoU
    OpenCLIP-G (frozen)Linear0.3M / 1.8B51239.3
    ViT-22B (frozen)Linear0.9M / 21.7B50434.6
    InternViT-6B (frozen)Linear0.5M / 5.9B50447.2 (+12.6)
    ViT-22B (frozen)UperNet0.8B / 22.5B50452.7
    InternViT-6B (frozen)UperNet0.4B / 6.3B50454.9 (+2.2)
    ViT-22BUperNet22.5B / 22.5B50455.3
    InternViT-6BUperNet6.3B / 6.3B50458.9 (+3.6)
  • Zero-Shot Image Classification [see details]

    methodIN-1KIN-AIN-RIN-V2IN-SketchObjectNet
    OpenCLIP-G80.169.392.173.668.973.0
    EVA-02-CLIP-E+82.082.194.575.771.679.6
    ViT-22B*85.990.196.080.987.6
    InternVL-C (ours)83.283.895.577.373.980.6
  • Multilingual Zero-Shot Image Classification [see details]

    EN: English, ZH: Chinese, JP: Japanese, Ar: Arabic, IT: Italian

    methodIN-1K (EN)IN-1K (ZH)IN-1K (JP)IN-1K (AR)IN-1K (IT)
    Taiyi-CLIP-ViT-H-54.4---
    WuKong-ViT-L-G-57.5---
    CN-CLIP-ViT-H-59.6---
    AltCLIP-ViT-L74.559.6---
    EVA-02-CLIP-E+82.0---41.2
    OpenCLIP-XLM-R-H77.055.753.137.056.8
    InternVL-C (ours)83.264.561.544.965.7
  • Zero-Shot Video Classification [see details]

    method#frameK400K600K700
    OpenCLIP-G165.966.159.2
    EVA-02-CLIP-E+169.869.363.4
    InternVL-C (ours)171.071.365.7
    ViCLIP875.773.566.4
    InternVL-C (ours)879.478.871.5

跨模态检索(点击展开)

  • English Zero-Shot Image-Text Retrieval [see details]

    modelFlickr30KCOCOavg
    image-to-texttext-to-imageimage-to-texttext-to-image
    R@1R@5R@10R@1R@5R@10R@1R@5R@10R@1R@5R@10
    OpenCLIP-G92.999.399.879.595.097.167.386.992.651.474.983.085.0
    EVA-02-CLIP-E+93.999.499.878.894.296.868.887.892.851.175.082.785.1
    EVA-CLIP-8B95.699.699.980.895.597.670.389.393.953.076.083.486.2
    InternVL-C (ours)94.799.699.981.796.098.270.689.093.554.177.384.686.6
    InternVL-G (ours)95.799.799.985.097.098.674.991.395.258.681.388.088.8
  • Chinese Zero-Shot Image-Text Retrieval [see details]

    modelFlickr30K-CNCOCO-CNavg
    image-to-texttext-to-imageimage-to-texttext-to-image
    R@1R@5R@10R@1R@5R@10R@1R@5R@10R@1R@5R@10
    CN-CLIP-ViT-H81.697.598.871.291.495.563.086.692.969.289.996.186.1
    OpenCLIP-XLM-R-H86.197.599.271.090.594.970.091.597.066.190.896.087.6
    InternVL-C (ours)90.398.899.775.192.996.468.892.096.768.991.996.589.0
    InternVL-G (ours)92.999.499.877.794.897.371.493.997.773.894.498.190.9
  • Multilingual Zero-Shot Image-Text Retrieval on XTD [see details]

    methodENESFRZHITKORUJPaverage
    AltCLIP95.494.192.995.194.294.491.891.793.7
    OpenCLIP-XLM-R-H97.396.194.594.796.090.293.994.094.6
    InternVL-C (ours)97.395.795.195.696.092.293.395.595.1
    InternVL-G (ours)98.697.796.596.796.995.194.896.196.6

多模态对话(参见“与SOTA VLLMs比较”)

5、Model Zoo

Vision Large Language Model

ModelDateDownloadNote
Mini-InternVL−Chat−2B-V1.5 (Preview version)2024.05.19
声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/我家小花儿/article/detail/787836
推荐阅读
相关标签