赞
踩
MLM之InternVL:InternVL(GPT-4V的开创性开源替代品/通过开源套件缩小与商业多模态模型的差距)的简介、安装和使用方法、案例应用之详细攻略
目录
Vision-Language Foundation Model
使用InternVL-C(对比)和InternVL-G(生成)(点击展开)
InternVL将ViT扩展到6B参数,并将其与LLM对齐。InternVL是一个开源的多模态视觉语言模型系列,它可以解决视觉与语言交叉领域的各种任务。InternVL的主要特点和贡献包括:
>> 规模化:InternVL-Chat-V1。5模型参数达到34B,超过过去开源模型。核心视觉模型InternViT的参数6B,较ViT-22B明显扩大。
>> 性能强劲:InternVL在很多视觉语言评估任务上超过SOTA,如MMMU、DocVQA等成绩接近商业模型GPT-4V。语义分割mIoU也高GPT-4V几个点。
>> 多语言支持:InternVL不仅支持英语,还支持中文等其他语言,在多语言零画识别、翻译等任务上表现出色。
>> 可拓展性强:InternVL提供分级模型,2B参数mini版本的InternVL-Chat也具备很强功能。还提供8位整型版本进行高效推理。
>> 开放性:InternVL采用MIT许可,所有模型、代码和数据都开源在GitHub上,方便开发者参考和应用。
>> 全面性:InternVL不仅支援图像与文本对话任务,还可以解决图像分类、语义分割、视频分类、图像与文本匹配等任务。目标检测和实例分割也在持续研发中。
总之,InternVL是迄今最强大、全面和开放的视觉语言模型系列之一。它在规模、性能和可拓展性等方面超越以往开源工作,近似商业水平,为视觉语言领域的研究和应用奠定坚实基础。
2024/05/13:�� InternVL现在可以作为扩散模型的文本编码器,原生支持全球110多种语言的多语言生成。详见MuLan。
2024/04/28:我们发布了InternVL-Chat-V1-5的INT8版本,请见HF链接。
2024/04/28:我们在信息图表VQA基准测试上达到了SOTA性能(75.74),请见此处。
2024/04/18:InternVL-Chat-V1.5已在HF链接上发布,接近于在各种基准测试如MMMU、DocVQA、ChartQA、MathVista等上的GPT-4V和Gemini Pro的性能。
2024/02/27:InternVL被CVPR 2024接受!��
2024/02/24:InternVL-Chat模型已包含在VLMEvalKit中。
2024/02/21:InternVL-Chat-V1.2-Plus在MathVista(59.9)、MMBench(83.8)和MMVP(58.7)上取得了SOTA性能。详情请见我们的博客。
2024/02/12:InternVL-Chat-V1.2已发布。在MMMU val上达到51.6,在MMBench测试上达到82.3。更多详情,请参阅我们的博客、SFT数据或尝试我们的演示。该模型现已在HuggingFace上提供,并且训练/评估数据和脚本均为开源。
2024/02/04:InternVL-Chat-V1.1在MMVP上达到了44.67%,高于GPT-4V!
2024/01/27:我们发布了448分辨率模型,在MMBench dev上达到了76.6,请见此处。
2024/01/24:InternVL-Chat-V1.1发布,支持中文并具有更强大的OCR功能,请见此处或尝试我们的演示。
2024/01/16:我们发布了定制的mmcv/mmsegmentation/mmdetection代码,集成了DeepSpeed,可用于训练大规模目标检测和语义分割模型。
如何安装环境? [链接] 如何复现InternVL-Chat-V1.2的SFT阶段? [链接] 如何在自定义数据集上微调InternVL-Chat-V1.2? [链接] 如何评估InternVL-Chat-V1-5? [链接] 如何使用VLMEvalKit评估InternVL-Chat-V1-5?(推荐)[链接] 如何部署本地演示? [链接] 如何在Nvidia V100 GPU上运行InternVL 1.5-8位? [链接] [中文教程] 如何执行批量推断? [链接] LMDeploy进行推断加速 [链接] [中文教程] |
|
Linear-Probe Image Classification [see details]
ViT-22B uses the private JFT-3B dataset.
method | #param | IN-1K | IN-ReaL | IN-V2 | IN-A | IN-R | IN-Sketch |
---|---|---|---|---|---|---|---|
OpenCLIP-G | 1.8B | 86.2 | 89.4 | 77.2 | 63.8 | 87.8 | 66.4 |
DINOv2-g | 1.1B | 86.5 | 89.6 | 78.4 | 75.9 | 78.8 | 62.5 |
EVA-01-CLIP-g | 1.1B | 86.5 | 89.3 | 77.4 | 70.5 | 87.7 | 63.1 |
MAWS-ViT-6.5B | 6.5B | 87.8 | - | - | - | - | - |
ViT-22B* | 21.7B | 89.5 | 90.9 | 83.2 | 83.8 | 87.4 | − |
InternViT-6B (ours) | 5.9B | 88.2 | 90.4 | 79.9 | 77.5 | 89.8 | 69.1 |
Semantic Segmentation [see details]
method | decoder | #param (train/total) | crop size | mIoU |
---|---|---|---|---|
OpenCLIP-G (frozen) | Linear | 0.3M / 1.8B | 512 | 39.3 |
ViT-22B (frozen) | Linear | 0.9M / 21.7B | 504 | 34.6 |
InternViT-6B (frozen) | Linear | 0.5M / 5.9B | 504 | 47.2 (+12.6) |
ViT-22B (frozen) | UperNet | 0.8B / 22.5B | 504 | 52.7 |
InternViT-6B (frozen) | UperNet | 0.4B / 6.3B | 504 | 54.9 (+2.2) |
ViT-22B | UperNet | 22.5B / 22.5B | 504 | 55.3 |
InternViT-6B | UperNet | 6.3B / 6.3B | 504 | 58.9 (+3.6) |
Zero-Shot Image Classification [see details]
method | IN-1K | IN-A | IN-R | IN-V2 | IN-Sketch | ObjectNet |
---|---|---|---|---|---|---|
OpenCLIP-G | 80.1 | 69.3 | 92.1 | 73.6 | 68.9 | 73.0 |
EVA-02-CLIP-E+ | 82.0 | 82.1 | 94.5 | 75.7 | 71.6 | 79.6 |
ViT-22B* | 85.9 | 90.1 | 96.0 | 80.9 | − | 87.6 |
InternVL-C (ours) | 83.2 | 83.8 | 95.5 | 77.3 | 73.9 | 80.6 |
Multilingual Zero-Shot Image Classification [see details]
EN: English, ZH: Chinese, JP: Japanese, Ar: Arabic, IT: Italian
method | IN-1K (EN) | IN-1K (ZH) | IN-1K (JP) | IN-1K (AR) | IN-1K (IT) |
---|---|---|---|---|---|
Taiyi-CLIP-ViT-H | - | 54.4 | - | - | - |
WuKong-ViT-L-G | - | 57.5 | - | - | - |
CN-CLIP-ViT-H | - | 59.6 | - | - | - |
AltCLIP-ViT-L | 74.5 | 59.6 | - | - | - |
EVA-02-CLIP-E+ | 82.0 | - | - | - | 41.2 |
OpenCLIP-XLM-R-H | 77.0 | 55.7 | 53.1 | 37.0 | 56.8 |
InternVL-C (ours) | 83.2 | 64.5 | 61.5 | 44.9 | 65.7 |
Zero-Shot Video Classification [see details]
method | #frame | K400 | K600 | K700 |
---|---|---|---|---|
OpenCLIP-G | 1 | 65.9 | 66.1 | 59.2 |
EVA-02-CLIP-E+ | 1 | 69.8 | 69.3 | 63.4 |
InternVL-C (ours) | 1 | 71.0 | 71.3 | 65.7 |
ViCLIP | 8 | 75.7 | 73.5 | 66.4 |
InternVL-C (ours) | 8 | 79.4 | 78.8 | 71.5 |
English Zero-Shot Image-Text Retrieval [see details]
model | Flickr30K | COCO | avg | ||||||||||
image-to-text | text-to-image | image-to-text | text-to-image | ||||||||||
R@1 | R@5 | R@10 | R@1 | R@5 | R@10 | R@1 | R@5 | R@10 | R@1 | R@5 | R@10 | ||
OpenCLIP-G | 92.9 | 99.3 | 99.8 | 79.5 | 95.0 | 97.1 | 67.3 | 86.9 | 92.6 | 51.4 | 74.9 | 83.0 | 85.0 |
EVA-02-CLIP-E+ | 93.9 | 99.4 | 99.8 | 78.8 | 94.2 | 96.8 | 68.8 | 87.8 | 92.8 | 51.1 | 75.0 | 82.7 | 85.1 |
EVA-CLIP-8B | 95.6 | 99.6 | 99.9 | 80.8 | 95.5 | 97.6 | 70.3 | 89.3 | 93.9 | 53.0 | 76.0 | 83.4 | 86.2 |
InternVL-C (ours) | 94.7 | 99.6 | 99.9 | 81.7 | 96.0 | 98.2 | 70.6 | 89.0 | 93.5 | 54.1 | 77.3 | 84.6 | 86.6 |
InternVL-G (ours) | 95.7 | 99.7 | 99.9 | 85.0 | 97.0 | 98.6 | 74.9 | 91.3 | 95.2 | 58.6 | 81.3 | 88.0 | 88.8 |
Chinese Zero-Shot Image-Text Retrieval [see details]
model | Flickr30K-CN | COCO-CN | avg | ||||||||||
image-to-text | text-to-image | image-to-text | text-to-image | ||||||||||
R@1 | R@5 | R@10 | R@1 | R@5 | R@10 | R@1 | R@5 | R@10 | R@1 | R@5 | R@10 | ||
CN-CLIP-ViT-H | 81.6 | 97.5 | 98.8 | 71.2 | 91.4 | 95.5 | 63.0 | 86.6 | 92.9 | 69.2 | 89.9 | 96.1 | 86.1 |
OpenCLIP-XLM-R-H | 86.1 | 97.5 | 99.2 | 71.0 | 90.5 | 94.9 | 70.0 | 91.5 | 97.0 | 66.1 | 90.8 | 96.0 | 87.6 |
InternVL-C (ours) | 90.3 | 98.8 | 99.7 | 75.1 | 92.9 | 96.4 | 68.8 | 92.0 | 96.7 | 68.9 | 91.9 | 96.5 | 89.0 |
InternVL-G (ours) | 92.9 | 99.4 | 99.8 | 77.7 | 94.8 | 97.3 | 71.4 | 93.9 | 97.7 | 73.8 | 94.4 | 98.1 | 90.9 |
Multilingual Zero-Shot Image-Text Retrieval on XTD [see details]
method | EN | ES | FR | ZH | IT | KO | RU | JP | average |
---|---|---|---|---|---|---|---|---|---|
AltCLIP | 95.4 | 94.1 | 92.9 | 95.1 | 94.2 | 94.4 | 91.8 | 91.7 | 93.7 |
OpenCLIP-XLM-R-H | 97.3 | 96.1 | 94.5 | 94.7 | 96.0 | 90.2 | 93.9 | 94.0 | 94.6 |
InternVL-C (ours) | 97.3 | 95.7 | 95.1 | 95.6 | 96.0 | 92.2 | 93.3 | 95.5 | 95.1 |
InternVL-G (ours) | 98.6 | 97.7 | 96.5 | 96.7 | 96.9 | 95.1 | 94.8 | 96.1 | 96.6 |
Model | Date | Download | Note |
---|---|---|---|
Mini-InternVL−Chat−2B-V1.5 (Preview version) | 2024.05.19 | 声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/我家小花儿/article/detail/787836 推荐阅读 相关标签 Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。 |