VLM 系列——InternVL 1.5——论文解读_internvit

作者：Guff_9hys | 2024-07-19 03:17:37

踩

internvit

一、概述

1、是什么

是一个多模态大模型，论文全称《How Far Are We to GPT-4V? Closing the Gap to Commercial Multimodal Models with Open-Source Suites》，主要还是图文问答等，不能完成图像生成、语音输入输出。也是标准的两阶段训练。论文称，InternVL 1.5 在四个特定基准测试中超越了 Grok-1.5V、GPT-4V、Claude-3 Opus 和 Gemini Pro 1.5 等领先的闭源模型，特别是在与 OCR 相关的数据集中。

2、亮点

如官方下图，分为三个方面。

（1）更强视觉编码器：为大规模视觉基础模型 InternViT-6B 探索了一种持续学习策略，提高了其视觉理解能力，并使其可以在不同的LLM中迁移和重用。

（2）动态高分辨率：根据输入图像的长宽比和分辨率，将图像划分为1到40个448×448像素的图块，最高支持4K分辨率输入。

（3）高质量的双语数据集：收集了高质量的双语数据集，涵盖常见场景、文档图像，并用英文和中文问答对进行注释，显着提高了 OCR 和中文相关任务的性能。

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/Guff_9hys/article/detail/849125