当前位置:   article > 正文

多模态大模型训练数据与资源总结_wukong-ocr (zh)

wukong-ocr (zh)

简介

总结对比QWenVL、Vary、InternVL-V-1.5三个多模态大模型的预训练阶段与Finetune阶段对于数据量与训练资源的需求。目标是借此了解多模态大模型在训练过程中需要的数据类型数据量级以及训练资源

数据分布

多模型大模型的训练通常包含预训练和Finetune两个阶段:

  1. 预训练结果使用大批量、弱标签的数据来增强模型的通用能力
  2. Finetune阶段采用数量较少、高质量的数据来提升模型在特定任务中的能力
模型参数量训练数据(预训练阶段训练数据(Finetune阶段训练资源(全参数预训练最低要求)
QWenVL7B公开数据集+私有数据集; 1.4B (Pre-training, weakly labeled image-text pairs.); 76.8M (Multi-task Pre-training, high quality)私有数据集; 350K instruction tuning data.2*A100(预估)
InternVL-V-1.525.5B公开数据集; 200M image-text pairs.公开数据集; 5M image-text pairs.4*A100
Vary7B人工生成数据集; 2.87M (Vary-tiny); 5.1M (Vary-base)公开数据集; ~124K2*A100(预估)

QWenVL

预训练

预训练数据分布

1.4B large-scale, weakly labeled, web-crawled set of image-text pairs.

LanguageDatasetOriginalCleanedRemaining%
EnglishLAION-en2B280M14%
LAION-COCO600M300M50%
DataComp1.4B300M21%
Coyo700M200M28%
CC12M12M8M66%
CC3M3M3M100%
SBU1M0.8M80%
COCO Caption0.6M0.6M100%
ChineseLAION-zh108M105M97%
In-house Data220M220M100%
Total5B1.4B28%
多任务预训练数据分布

76.8M high-quality and fine-grained VL annotation data

Task# SamplesDataset
Captioning19.7MLAION-en & zh, DataComp, Coyo, CC12M & 3M, SBU, COCO, In-house Data
VQA3.6MGQA, VGQA, VQAv2, DVQA, OCR-VQA, DocVQA, TextVQA, ChartQA, AI2D
Grounding²3.5MGRIT
Ref Grounding8.7MGRIT, Visual Genome, RefCOCO, RefCOCO+, RefCOCOg
Grounded Cap.8.7MGRIT, Visual Genome, RefCOCO, RefCOCO+, RefCOCOg
OCR24.8MSynthDoG-en & zh, Common Crawl pdf & HTML
Pure-text Autoregression7.8MIn-house Data
Total76.8M

Finetune

通过手工标注、模型生成和策略连接构建了一组额外的对话数据,共350K指令微调数据,以将定位和多图像理解能力引入QwenVL

InternVL-V-1.5

预训练

https://internvl.github.io/blog/2024-04-30-InternVL-1.5/
~200M训练数据

TaskRatioQuantityDataset
Captioning53.9%Laion-EN (en) , Laion-ZH (zh) , COYO (zh) , GRIT (zh) , COCO (en) , TextCaps (en)
Detection5.2%Objects365 (en&zh), GRIT (en&zh) , All-Seeing (en&zh)
OCR (large)32.0%Wukong-OCR (zh) , LaionCOCO-OCR (en) , Common Crawl PDF (en&zh)
OCR (small)8.9%MMC-Inst (en) [61], LSVT (zh) , ST-VQA (en) ,RCTW-17 (zh) , ReCTs (zh) , ArT (en&zh) , SynthDoG (en&zh) , COCO-Text (en) , ChartQA (en) , CTW (zh) , DocVQA (en) , TextOCR (en) , PlotQA (en) , InfoVQA (en)
Total100%~200M

Laion-EN:2.32B图文对
Laion-ZH:142M图文对
Objects365 (en&zh):600K图片
GRIT(en&zh):共91M图片,但是可公开下载只有20M图片
All-Seeing (en&zh) :11M图片
Wukong-OCR (zh) :100M图文对,用paddle OCR生成ocr结果
LaionCOCO-OCR (en) :600M图文对,用paddleocr生成OCR结果
Common Crawl PDF (en&zh)(非公开)

Finetune

5M high-quality bilingual data

TaskDataset
CaptioningTextCaps (en) , ShareGPT4V (en&zh)
General QAVQAv2 (en) , GQA (en) , OKVQA (en) , VSR (en) , VisualDialog (en)
ScienceAI2D (en) , ScienceQA (en) , TQA (en)
ChartChartQA (en) , MMC-Inst (en) , DVQAv2 (en) , PlotQA (en) , LRV-Instruction (en)
MathematicsGeoQA+ (en) , TabMWP (en) , MathQA (en) , CLEVR-Math/Super (en) , Geometry3K (en)
KnowledgeKVQA (en) , A-OHVQA (en) , ViQuAE (en) , Wikipedia (en&zh)
OCROCRVQA (en) , InfoVQA (en) , TextVQA (en) , ArT (en&zh) , COCO-Text (en) , CTW (zh) , LSVT (zh) , RCTW-17 (zh) , ReCTs (zh) , SynthDoG (en&zh) , ST-VQA (en)
DocumentDocVQA (en) , Common Crawl PDF (en&zh)
GroundingRefCOCO/+/g (en), Visual Genome (en)
ConversationLLaVA-150K (en&zh) , LVIS-Instruct4V (en), ALLaVA (en&zh), Laion-GPT4V (en) , TextOCR-GPT4V (en) , SVIT (en&zh)
Text-onlyOpenHermes2.5 (en) , Alpaca-GPT4 (en) , ShareGPT (en&zh) , COIG-CQIA (zh)

Vary

预训练

Vary-tiny预训练
TaskQuantityDataset
Document2M收集网络公开PDF数据,转换为image-text pair
Chart750K人工生成表格数据
Negative natural image120KCOCO
Total2.87M
Vary-base预训练
TaskQuantityDataset
LATEX rendering document0.9M收集网络公开PDF数据,转换为latex格式
Semantic association chart rendering200K人工生成表格数据
General data4MLAION-COCO
Total5.1M

Finetune

TaskQuantityDataset
General data~124KDocVQA、ChartQA、LLaVA-80k
Total~124K
声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/运维做开发/article/detail/1017946
推荐阅读
相关标签
  

闽ICP备14008679号