数据集-(图像-文本)：LAION【史上最大规模多模态图文数据集，包含58.5亿个图像-文本对】_laion数据集

作者：菜鸟追梦旅行 | 2024-03-24 05:31:25

踩

laion数据集

继去年LAION-400M[1]这个史上最大规模多模态图文数据集发布之后，今年又又又有LAION-5B[2]这个超大规模图文数据集发布了。

其包含 58.5 亿个 CLIP [5]过滤的图像-文本对的数据集，比 LAION-400M 大 14 倍，是世界第一大规模、多模态的文本图像数据集，共80T数据，并提供了色情图片过滤、水印图片过滤、高分辨率图片、美学图片等子集和模型，供不同方向研究。

一起来看看。

今年大火的DALL·E 2 再次掀起了多模态图文匹配研究热潮。

在图文匹配领域，CLIP[5]模型使得在ImageNet上的zero-shot分类精度从11.5%提升到76.2%，受此启发，ALIGN[3]、BASIC[4]等大型图文多模态模型进一步改进，除了本身的模型优化之外，目前的进展其实都比较依赖底层的上亿图文对数据，但这些数据集及模型仅有少数公开，所以LAION提出了LAION-5B及在该数据集上训练的模型，并提供web界面提供预先计算的向量和搜索功能。

图1: LAION-5B检索样例。数据来源：https://laion.ai/blog/laion-5b/

LAION-5B通过CommonCrawl获取文本和图片，OpenAI的CLIP计算后获取图像和文本的相似性，并删除相似度低于设定阈值的图文对（英文阈值0.28，其余阈值0.26），500亿图片保留

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/菜鸟追梦旅行/article/detail/300173