这个屌丝很懒，什么也没留下！

海量数据集，机器学习、视觉、NLP、音频_312个

作者：IT小白 | 2024-06-17 03:52:28

--------------------------------------------------------------------------------------------------------------------

--------------------------------------------------------------------------------------------------------------------

图像分类领域

自然语言处理领域

目标检测定位

COCO 数据集

--------------------------------------------------------------------------------------------------------------------

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/IT小白/article/detail/729534

海量数据集，机器学习、视觉、NLP、音频_312个

以下记录是来自于https://blog.csdn.net/perfectlwz/article/details/88761651，在此感谢李老师，我看到比较好，就转记录到自己的博客了，如果有侵权，立马删掉。

分享一个,机器学习数据集,涵盖了 视觉/NLP/音频 三个领域

满足大家的学习需求,这些内容仅供学习使用!

该内容由一位名叫 Nikola Pleša 的开发人员做了一个项目，将所有机器学习的大型数据集收集在一个网站上，方便大家取用。

网站目前提供约 70 个数据集，涵盖了计算机视觉、自然语言理解和音频三大领域，包括每个数据集的链接、简介、许可类型、论文等，并且作者表示将继续增加数据集数量。

数据集地址:https://www.datasetlist.com/

图像分类领域

1）MNIST

引文：http://yann.lecun.com/exdb/publis/index.html#lecun-98

下载地址：https://s3.amazonaws.com/fast-ai-imageclas/mnist_png.tgz

2）CIFAR10

10 个类别，多达 60000 张的 32x32 像素彩色图像（50000 张训练图像和 10000 张测试图像），平均每种类别 拥有 6000 张图像。广泛用于测试新算法的性能。fast.ai 版本的数据集舍弃了原始的特殊二进制格式，转而采用

标准的 PNG 格式，以便在目前大多数代码库中作为正常的工作流使用。

引文：https://www.cs.toronto.edu/~kriz/learning-features-2009-TR.pdf

下载地址：https://s3.amazonaws.com/fast-ai-imageclas/cifar10.tgz

3）CIFAR100

引文：https://www.cs.toronto.edu/~kriz/learning-features-2009-TR.pdf

下载地址：https://s3.amazonaws.com/fast-ai-imageclas/cifar100.tgz

4）Caltech-UCSD Birds-200-2011

包含 200 种鸟类（主要为北美洲鸟类）照片的图像数据集，可用于图像识别工作。分类数量：200；图片数量： 11,788；平均每张图片含有的标注数量：15 个局部位置，312 个二进制属性，1 个边框框。

引文：http://vis-www.cs.umass.edu/bcnn/

下载地址：https://s3.amazonaws.com/fast-ai-imageclas/CUB_200_2011.tgz

5）Caltech 101

包含 101 种物品类别的图像数据集，平均每个类别拥有 40—800 张图像，其中很大一部分类别的图像数量固为 50 张左右。每张图像的大小约为 300 x 200 像素。本数据集也可以用于目标检测定位。

引文：http://www.vision.caltech.edu/feifeili/Fei-Fei_GMBV04.pdf

下载地址：https://s3.amazonaws.com/fast-ai-imageclas/caltech_101.tar.gz

6）Oxford-IIIT Pet

包含 37 种宠物类别的图像数据集，每个类别约有 200 张图像。这些图像在比例、姿势以及光照方面有着丰富的 变化。本数据集也可以用于目标检测定位。

引文：http://www.robots.ox.ac.uk/~vgg/publications/2012/parkhi12a/parkhi12a.pdf

下载地址：https://s3.amazonaws.com/fast-ai-imageclas/oxford-iiit-pet.tgz

7）Oxford 102 Flowers

包含 102 种花类的图像数据集（主要是一些英国常见的花类），每个类别包含 40—258 张图像。这些图像在比 例、姿势以及光照方面有着丰富的变化。

引文：http://www.robots.ox.ac.uk/~vgg/publications/papers/nilsback08.pdf

下载地址：https://s3.amazonaws.com/fast-ai-imageclas/oxford-102-flowers.tgz

8）Food-101

包含 101 种食品类别的图像数据集，共有 101,000 张图像，平均每个类别拥有 250 张测试图像和 750 张训练图 像。训练图像未经过数据清洗。所有图像都已经重新进行了尺寸缩放，最大边长达到了 512 像素。

引文：https://pdfs.semanticscholar.org/8e3f/12804882b60ad5f59aad92755c5edb34860e.pdf

下载地址：https://s3.amazonaws.com/fast-ai-imageclas/food-101.tgz

9）Stanford cars

包含 196 种汽车类别的图像数据集，共有 16,185 张图像，分别为 8,144 张训练图像和 8,041 张测试图像，每个 类别的图像类型比例基本上都是五五开。本数据集的类别主要基于汽车的牌子、车型以及年份进行划分。

引文：https://ai.stanford.edu/~jkrause/papers/3drr13.pdf

下载地址：https://s3.amazonaws.com/fast-ai-imageclas/stanford-cars.tgz

自然语言处理领域

1）IMDb Large Movie Review Dataset

用于情感二元分类的数据集，其中包含 25,000 条用于训练的电影评论和 25,000 条用于测试的电影评论，这些电 影评论的特点是两极分化特别明显。另外数据集里也包含未标记的数据可供使用。

引文：http://ai.stanford.edu/~amaas/papers/wvSent_acl2011.pdf

下载地址：https://s3.amazonaws.com/fast-ai-nlp/imdb.tgz

2）Wikitext-103

超过 1 亿个语句的数据合集，全部从维基百科的 Good 与 Featured 文章中提炼出来。广泛用于语言建模，当中 包括 fastai 库和 ULMFiT 算法中经常用到的预训练模型。

引文：https://arxiv.org/abs/1609.07843

下载地址：https://s3.amazonaws.com/fast-ai-nlp/wikitext-103.tgz

3）Wikitext-2

Wikitext-103 的子集，主要用于测试小型数据集的语言模型训练效果。

引文：https://arxiv.org/abs/1609.07843

下载地址：https://s3.amazonaws.com/fast-ai-nlp/wikitext-2.tgz

4）WMT 2015 French/English parallel texts

引文：https://www.cis.upenn.edu/~ccb/publications/findings-of-the-wmt09-shared-tasks.pdf

下载地址：https://s3.amazonaws.com/fast-ai-nlp/giga-fren.tgz

5）AG News

496,835 条来自 AG 新闻语料库 4 大类别超过 2000 个新闻源的新闻文章，数据集仅仅援用了标题和描述字段。 每个类别分别拥有 30,000 个训练样本及 1900 个测试样本。

引文：https://arxiv.org/abs/1509.01626

下载地址：https://s3.amazonaws.com/fast-ai-nlp/ag_news_csv.tgz

6）Amazon reviews - Full

34,686,770 条来自 6,643,669 名亚马逊用户针对 2,441,053 款产品的评论，数据集主要来源于斯坦福网络分析项 目（SNAP）。数据集的每个类别分别包含 600,000 个训练样本和 130,000 个测试样本。

引文：https://arxiv.org/abs/1509.01626

下载地址：https://s3.amazonaws.com/fast-ai-nlp/amazon_review_full_csv.tgz

7）Amazon reviews - Polarity

34,686,770 条来自 6,643,669 名亚马逊用户针对 2,441,053 款产品的评论，数据集主要来源于斯坦福网络分析项 目（SNAP）。该子集的每个情绪极性数据集分别包含 1,800,000 个训练样本和 200,000 个测试样本。

引文：https://arxiv.org/abs/1509.01626

下载地址：https://s3.amazonaws.com/fast-ai-nlp/amazon_review_polarity_csv.tgz

8）DBPedia ontology

来自 DBpedia 2014 的 14 个不重叠的分类的 40,000 个训练样本和 5,000 个测试样本。

引文：https://arxiv.org/abs/1509.01626

下载地址：https://s3.amazonaws.com/fast-ai-nlp/dbpedia_csv.tgz

9）Sogou news

2,909,551 篇来自 SogouCA 和 SogouCS 新闻语料库 5 个类别的新闻文章。每个类别分别包含 90,000 个训练样 本和 12,000 个测试样本。这些汉字都已经转换成拼音。

引文：https://arxiv.org/abs/1509.01626

下载地址：https://s3.amazonaws.com/fast-ai-nlp/sogou_news_csv.tgz

10）Yahoo! Answers

分享一个,机器学习数据集,涵盖了视觉/NLP/音频三个领域

10 个类别，多达 60000 张的 32x32 像素彩色图像（50000 张训练图像和 10000 张测试图像），平均每种类别拥有 6000 张图像。广泛用于测试新算法的性能。fast.ai 版本的数据集舍弃了原始的特殊二进制格式，转而采用

包含 37 种宠物类别的图像数据集，每个类别约有 200 张图像。这些图像在比例、姿势以及光照方面有着丰富的变化。本数据集也可以用于目标检测定位。

包含 102 种花类的图像数据集（主要是一些英国常见的花类），每个类别包含 40—258 张图像。这些图像在比例、姿势以及光照方面有着丰富的变化。

包含 101 种食品类别的图像数据集，共有 101,000 张图像，平均每个类别拥有 250 张测试图像和 750 张训练图像。训练图像未经过数据清洗。所有图像都已经重新进行了尺寸缩放，最大边长达到了 512 像素。

包含 196 种汽车类别的图像数据集，共有 16,185 张图像，分别为 8,144 张训练图像和 8,041 张测试图像，每个类别的图像类型比例基本上都是五五开。本数据集的类别主要基于汽车的牌子、车型以及年份进行划分。

用于情感二元分类的数据集，其中包含 25,000 条用于训练的电影评论和 25,000 条用于测试的电影评论，这些电影评论的特点是两极分化特别明显。另外数据集里也包含未标记的数据可供使用。

超过 1 亿个语句的数据合集，全部从维基百科的 Good 与 Featured 文章中提炼出来。广泛用于语言建模，当中包括 fastai 库和 ULMFiT 算法中经常用到的预训练模型。

496,835 条来自 AG 新闻语料库 4 大类别超过 2000 个新闻源的新闻文章，数据集仅仅援用了标题和描述字段。每个类别分别拥有 30,000 个训练样本及 1900 个测试样本。

34,686,770 条来自 6,643,669 名亚马逊用户针对 2,441,053 款产品的评论，数据集主要来源于斯坦福网络分析项目（SNAP）。数据集的每个类别分别包含 600,000 个训练样本和 130,000 个测试样本。

34,686,770 条来自 6,643,669 名亚马逊用户针对 2,441,053 款产品的评论，数据集主要来源于斯坦福网络分析项目（SNAP）。该子集的每个情绪极性数据集分别包含 1,800,000 个训练样本和 200,000 个测试样本。

2,909,551 篇来自 SogouCA 和 SogouCS 新闻语料库 5 个类别的新闻文章。每个类别分别包含 90,000 个训练样本和 12,000 个测试样本。这些汉字都已经转换成拼音。

来自雅虎 Yahoo! Answers Comprehensive Questions and Answers1.0 数据集的 10 个主要分类数据。每个类别分别包含 140,000 个训练样本和 5,000 个测试样本。

来自 2015 年 Yelp Dataset Challenge 数据集的 1,569,264 个样本。每个评级分别包含 130,000 个训练样本和 10,000 个测试样本。

来自 2015 年 Yelp Dataset Challenge 数据集的 1,569,264 个样本。该子集中的不同极性分别包含 280,000 个训练样本和 19,000 个测试样本。

用于类识别的标准图像数据集——这里同时提供了 2007 与 2012 版本。2012 年的版本拥有 20 个类别。训练数据的 11,530 张图像中包含了 27,450 个 ROI 注释对象和 6,929 个目标分割数据。