当前位置:   article > 正文

数据集-(图像-文本):LAION【史上最大规模多模态图文数据集,包含58.5亿个图像-文本对】_laion数据集

laion数据集

继去年LAION-400M[1]这个史上最大规模多模态图文数据集发布之后,今年又又又有LAION-5B[2]这个超大规模图文数据集发布了。

其包含 58.5 亿个 CLIP [5]过滤的图像-文本对的数据集,比 LAION-400M 大 14 倍,是世界第一大规模、多模态的文本图像数据集,共80T数据,并提供了色情图片过滤、水印图片过滤、高分辨率图片、美学图片等子集和模型,供不同方向研究。

一起来看看。


今年大火的DALL·E 2 再次掀起了多模态图文匹配研究热潮。

在图文匹配领域,CLIP[5]模型使得在ImageNet上的zero-shot分类精度从11.5%提升到76.2%,受此启发,ALIGN[3]、BASIC[4]等大型图文多模态模型进一步改进,除了本身的模型优化之外,目前的进展其实都比较依赖底层的上亿图文对数据,但这些数据集及模型仅有少数公开,所以LAION提出了LAION-5B及在该数据集上训练的模型,并提供web界面提供预先计算的向量和搜索功能。

图1: LAION-5B检索样例。数据来源:https://laion.ai/blog/laion-5b/

LAION-5B通过CommonCrawl获取文本和图片,OpenAI的CLIP计算后获取图像和文本的相似性,并删除相似度低于设定阈值的图文对(英文阈值0.28,其余阈值0.26),500亿图片保留

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/菜鸟追梦旅行/article/detail/300173
推荐阅读
相关标签
  

闽ICP备14008679号