赞
踩
符号 | 含义 |
---|---|
K | 1千 |
M | 100万 |
B | 10亿 |
caption数据 | 类型 | 数量 | 链接 | 语种 |
---|---|---|---|---|
yttemporal180m | 视频 | 6M | https://huggingface.co/datasets/HuggingFaceM4/yttemporal180m | 英语 |
HowTo100M | 视频 | 136M | https://www.di.ens.fr/willow/research/howto100m/ | 英语 |
HD-VILA-100M | 视频 | 100M | https://github.com/microsoft/XPretrain/tree/main/hd-vila-100m | 英语 |
WebVid10M | 视频 | 10M | https://maxbain.com/webvid-dataset/ | 英语 |
InternVid | 视频 | 10M | https://huggingface.co/datasets/OpenGVLab/InternVid或https://opendatalab.com/shepshep/InternVid | 英语 |
caption数据 | 类型 | 数量 | 链接 | 语种 |
---|---|---|---|---|
ShareGPT4V | 图像 | 1246K | https://github.com/InternLM/InternLM-XComposer/blob/main/projects/ShareGPT4V/docs/Data.md | 英语 |
sbu_captions | 图像 | 1M | https://huggingface.co/datasets/sbu_captions?row=32 | 英语 |
LAION-400-M | 图像 | 400M | https://laion.ai/blog/laion-400-open-dataset/ | 英语 |
LAION-5B | 图像 | 5B | https://laion.ai/blog/laion-5b/ | 英语 |
GRIT | 图像 | 20M | https://huggingface.co/datasets/zzliang/GRIT | 英语 |
SFT数据 | 类型 | 数量 | 链接 | 语种 |
---|---|---|---|---|
M3IT | 视频/图像 | 1.9M | https://huggingface.co/datasets/MMInstruction/M3IT | 英语/中文/80种语言 |
valley | 视频 | 84K | https://huggingface.co/datasets/luoruipu1/Valley-Instruct-73k | 英语 |
CogVLM-SFT-311K | 图片 | 311K | https://huggingface.co/datasets/THUDM/CogVLM-SFT-311K | 英语 |
LVIS-Instruct4V | 图片 | 880K | https://huggingface.co/datasets/X2FD/LVIS-Instruct4V | 英语 |
macaw | 视频 | 50K | https://github.com/lyuchenyang/Macaw-LLM/blob/main/data/generated_examples_avsd.json | 英语 |
chaoswork | 文本 | 一堆 | https://github.com/chaoswork/sft_datasets/tree/master?tab=readme-ov-file | 英语/中文 |
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。