赞
踩
总结对比QWenVL、Vary、InternVL-V-1.5三个多模态大模型的预训练阶段与Finetune阶段对于数据量与训练资源的需求。目标是借此了解多模态大模型在训练过程中需要的数据类型、数据量级以及训练资源。
多模型大模型的训练通常包含预训练和Finetune两个阶段:
模型 | 参数量 | 训练数据(预训练阶段) | 训练数据(Finetune阶段) | 训练资源(全参数预训练最低要求) |
---|---|---|---|---|
QWenVL | 7B | 公开数据集+私有数据集; 1.4B (Pre-training, weakly labeled image-text pairs.); 76.8M (Multi-task Pre-training, high quality) | 私有数据集; 350K instruction tuning data. | 2*A100(预估) |
InternVL-V-1.5 | 25.5B | 公开数据集; 200M image-text pairs. | 公开数据集; 5M image-text pairs. | 4*A100 |
Vary | 7B | 人工生成数据集; 2.87M (Vary-tiny); 5.1M (Vary-base) | 公开数据集; ~124K | 2*A100(预估) |
1.4B large-scale, weakly labeled, web-crawled set of image-text pairs.
Language | Dataset | Original | Cleaned | Remaining% |
---|---|---|---|---|
English | LAION-en | 2B | 280M | 14% |
LAION-COCO | 600M | 300M | 50% | |
DataComp | 1.4B | 300M | 21% | |
Coyo | 700M | 200M | 28% | |
CC12M | 12M | 8M | 66% | |
CC3M | 3M | 3M | 100% | |
SBU | 1M | 0.8M | 80% | |
COCO Caption | 0.6M | 0.6M | 100% | |
Chinese | LAION-zh | 108M | 105M | 97% |
In-house Data | 220M | 220M | 100% | |
Total | 5B | 1.4B | 28% |
76.8M high-quality and fine-grained VL annotation data
Task | # Samples | Dataset |
---|---|---|
Captioning | 19.7M | LAION-en & zh, DataComp, Coyo, CC12M & 3M, SBU, COCO, In-house Data |
VQA | 3.6M | GQA, VGQA, VQAv2, DVQA, OCR-VQA, DocVQA, TextVQA, ChartQA, AI2D |
Grounding² | 3.5M | GRIT |
Ref Grounding | 8.7M | GRIT, Visual Genome, RefCOCO, RefCOCO+, RefCOCOg |
Grounded Cap. | 8.7M | GRIT, Visual Genome, RefCOCO, RefCOCO+, RefCOCOg |
OCR | 24.8M | SynthDoG-en & zh, Common Crawl pdf & HTML |
Pure-text Autoregression | 7.8M | In-house Data |
Total | 76.8M |
通过手工标注、模型生成和策略连接构建了一组额外的对话数据,共350K指令微调数据,以将定位和多图像理解能力引入QwenVL
https://internvl.github.io/blog/2024-04-30-InternVL-1.5/
~200M训练数据
Task | Ratio | Quantity | Dataset |
---|---|---|---|
Captioning | 53.9% | Laion-EN (en) , Laion-ZH (zh) , COYO (zh) , GRIT (zh) , COCO (en) , TextCaps (en) | |
Detection | 5.2% | Objects365 (en&zh), GRIT (en&zh) , All-Seeing (en&zh) | |
OCR (large) | 32.0% | Wukong-OCR (zh) , LaionCOCO-OCR (en) , Common Crawl PDF (en&zh) | |
OCR (small) | 8.9% | MMC-Inst (en) [61], LSVT (zh) , ST-VQA (en) ,RCTW-17 (zh) , ReCTs (zh) , ArT (en&zh) , SynthDoG (en&zh) , COCO-Text (en) , ChartQA (en) , CTW (zh) , DocVQA (en) , TextOCR (en) , PlotQA (en) , InfoVQA (en) | |
Total | 100% | ~200M |
Laion-EN:2.32B图文对
Laion-ZH:142M图文对
Objects365 (en&zh):600K图片
GRIT(en&zh):共91M图片,但是可公开下载只有20M图片
All-Seeing (en&zh) :11M图片
Wukong-OCR (zh) :100M图文对,用paddle OCR生成ocr结果
LaionCOCO-OCR (en) :600M图文对,用paddleocr生成OCR结果
Common Crawl PDF (en&zh)(非公开)
5M high-quality bilingual data
Task | Dataset |
---|---|
Captioning | TextCaps (en) , ShareGPT4V (en&zh) |
General QA | VQAv2 (en) , GQA (en) , OKVQA (en) , VSR (en) , VisualDialog (en) |
Science | AI2D (en) , ScienceQA (en) , TQA (en) |
Chart | ChartQA (en) , MMC-Inst (en) , DVQAv2 (en) , PlotQA (en) , LRV-Instruction (en) |
Mathematics | GeoQA+ (en) , TabMWP (en) , MathQA (en) , CLEVR-Math/Super (en) , Geometry3K (en) |
Knowledge | KVQA (en) , A-OHVQA (en) , ViQuAE (en) , Wikipedia (en&zh) |
OCR | OCRVQA (en) , InfoVQA (en) , TextVQA (en) , ArT (en&zh) , COCO-Text (en) , CTW (zh) , LSVT (zh) , RCTW-17 (zh) , ReCTs (zh) , SynthDoG (en&zh) , ST-VQA (en) |
Document | DocVQA (en) , Common Crawl PDF (en&zh) |
Grounding | RefCOCO/+/g (en), Visual Genome (en) |
Conversation | LLaVA-150K (en&zh) , LVIS-Instruct4V (en), ALLaVA (en&zh), Laion-GPT4V (en) , TextOCR-GPT4V (en) , SVIT (en&zh) |
Text-only | OpenHermes2.5 (en) , Alpaca-GPT4 (en) , ShareGPT (en&zh) , COIG-CQIA (zh) |
Task | Quantity | Dataset |
---|---|---|
Document | 2M | 收集网络公开PDF数据,转换为image-text pair |
Chart | 750K | 人工生成表格数据 |
Negative natural image | 120K | COCO |
Total | 2.87M |
Task | Quantity | Dataset |
---|---|---|
LATEX rendering document | 0.9M | 收集网络公开PDF数据,转换为latex格式 |
Semantic association chart rendering | 200K | 人工生成表格数据 |
General data | 4M | LAION-COCO |
Total | 5.1M |
Task | Quantity | Dataset |
---|---|---|
General data | ~124K | DocVQA、ChartQA、LLaVA-80k |
Total | ~124K |
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。