当前位置:   article > 正文

VLM 系列——InternVL 1.5——论文解读_internvit

internvit

一、概述

1、是什么

    是一个多模态大模型,论文全称《How Far Are We to GPT-4V? Closing the Gap to Commercial Multimodal Models with Open-Source Suites》,主要还是图文问答等,不能完成图像生成、语音输入输出。也是标准的两阶段训练。论文称,InternVL 1.5 在四个特定基准测试中超越了 Grok-1.5V、GPT-4V、Claude-3 Opus 和 Gemini Pro 1.5 等领先的闭源模型,特别是在与 OCR 相关的数据集中。

2、亮点

        如官方下图,分为三个方面。

    (1)更强视觉编码器:为大规模视觉基础模型 InternViT-6B 探索了一种持续学习策略,提高了其视觉理解能力,并使其可以在不同的LLM中迁移和重用。

    (2)动态高分辨率:根据输入图像的长宽比和分辨率,将图像划分为1到40个448×448像素的图块,最高支持4K分辨率输入。

    (3)高质量的双语数据集:收集了高质量的双语数据集,涵盖常见场景、文档图像,并用英文和中文问答对进行注释,显着提高了 OCR 和中文相关任务的性能。

    

本文内容由网友自发贡献,转载请注明出处:【wpsshop博客】
推荐阅读
相关标签
  

闽ICP备14008679号