赞
踩
参考博客: https://www.cnblogs.com/weiyinfu/p/8016405.html#32
常用数据集
Cifar10包含60000条数据,50000条用于训练,10000条用于测试。这60000条数据中,包含10类,每类6000张图片(5000训练,1000测试)。
Cifar100包含60000条数据,100类图片,每类600张(500训练,100测试)。
每张图片都为3232的RGB图像,故每张图片大小为3232*3=3072B。
CIFAR-10包含10个类别,50,000个训练图像,彩色图像大小:32×32,10,000个测试图像。CIFAR-100与CIFAR-10类似,包含100个类,每类有600张图片,其中500张用于训练,100张用于测试;这100个类分组成20个超类。图像类别均有明确标注。CIFAR对于图像分类算法测试来说是一个非常不错的中小规模数据集。
数据集大小:~170MB
下载地址:
http://www.cs.toronto.edu/~kriz/cifar.html
NIST名叫“美国国家标准与技术研究院”,该机构收集了两堆手写数字,结构比较混乱,Yann Lecun进行了一些整理,所以叫Mixed NIST。
Mnist数据集包含60000张图片,10个类别(0~9共10个数字),每张图片6000张(5000训练,1000测试)。
http://yann.lecun.com/exdb/mnist/index.html
1500万张图片,仿照WordNet的形式进行组织。
由斯坦福李飞飞整理,用于替代Pascal和labelMe数据集。
ImageNet数据集可谓是目前影响力最大的数据集,它极大地促进了计算机视觉的发展。根据ImageNet数据集,人们举办了ILSVRC(International Large Scale Visual Recognition Challenge)。该比赛从2010年开始举办,2017年为最后一届,在这8年间,计算机视觉取得空前发展。ILSVRC包括的比赛项目有:
历年比赛都有重大成果:
Oxford flower dataset
Oxford17包括17类花卉,每类80张图片,总共1360张图片。
Oxford102包括102类花卉,每类40~258张图片不等。
COCO(Common Objects in Context)是一个新的图像识别、分割和图像语义数据集,它有如下特点:
1)Object segmentation
2)Recognition in Context
3)Multiple objects per image
4)More than 300,000 images
5)More than 2 Million instances
6)80 object categories
7)5 captions per image
8)Keypoints on 100,000 people
COCO数据集由微软赞助,其对于图像的标注信息不仅有类别、位置信息,还有对图像的语义文本描述,COCO数据集的开源使得近两三年来图像分割语义理解取得了巨大的进展,也几乎成为了图像语义理解算法性能评价的“标准”数据集。
Google开源的开源了图说生成模型show and tell就是在此数据集上测试的,想玩的可以下下来试试哈。
数据集大小:~40GB
下载地址:http://mscoco.org/
PASCAL VOC挑战赛是视觉对象的分类识别和检测的一个基准测试,提供了检测算法和学习性能的标准图像注释数据集和标准的评估系统。PASCAL VOC图片集包括20个目录:人类;动物(鸟、猫、牛、狗、马、羊);交通工具(飞机、自行车、船、公共汽车、小轿车、摩托车、火车);室内(瓶子、椅子、餐桌、盆栽植物、沙发、电视)。PASCAL VOC挑战赛在2012年后便不再举办,但其数据集图像质量好,标注完备,非常适合用来测试算法性能。
数据集大小:~2GB
下载地址:
http://host.robots.ox.ac.uk/pascal/VOC/voc2012/index.html
过去几年机器学习的发展使得计算机视觉有了快速的进步,系统能够自动描述图片,对共享的图片创造自然语言回应。其中大部分的进展都可归因于 ImageNet 、COCO这样的数据集的公开使用。谷歌作为一家伟大的公司,自然也要做出些表示,于是乎就有了Open Image。
Open Image是一个包含~900万张图像URL的数据集,里面的图片通过标签注释被分为6000多类。该数据集中的标签要比ImageNet(1000类)包含更真实生活的实体存在,它足够让我们从头开始训练深度神经网络。
谷歌出品,必属精品!唯一不足的可能就是它只是提供图片URL,使用起来可能不如直接提供图片方便。
此数据集,笔者也未使用过,不过google出的东西质量应该还是有保障的。
数据集大小:~1.5GB(不包括图片)
下载地址:
https://github.com/openimages/dataset
Youtube-8M为谷歌开源的视频数据集,视频来自youtube,共计8百万个视频,总时长50万小时,4800类。为了保证标签视频数据库的稳定性和质量,谷歌只采用浏览量超过1000的公共视频资源。为了让受计算机资源所限的研究者和学生也可以用上这一数据库,谷歌对视频进行了预处理,并提取了帧级别的特征,提取的特征被压缩到可以放到一个硬盘中(小于1.5T)。
此数据集的下载提供下载脚本,由于国内网络的特殊原因,下载此数据经常断掉,不过还好下载脚本有续传功能,过一会儿重新连接就能再连上。可以写一个脚本检测到下载中断后就sleep一段时间然后再重新请求下载,这样就不用一直守着了。(截至发文,断断续续的下载,笔者表示还没下完呢……)
数据集大小:~1.5TB
下载地址:https://research.google.com/youtube8m/
Iris也称鸢尾花卉数据集,是一类多重变量分析的数据集。通过花萼长度,花萼宽度,花瓣长度,花瓣宽度4个属性预测鸢尾花卉属于(Setosa,Versicolour,Virginica)三个种类中的哪一类。
数据集特征: 多变量
记录数: 150
领域: 生活
属性特征: 实数
属性数目: 4
捐赠日期 1988-07-01
相关应用: 分类
缺失值? 无
网站点击数: 563347
该数据从美国1994年人口普查数据库抽取而来,可以用来预测居民收入是否超过50K,属性变量包含年龄,工种,学历,职业,人种等重要信息,值得一提的是,14个属性变量中有7个类别型变量。
数据集特征: 多变量
记录数: 48842
领域: 社会
属性特征: 类别型,整数
属性数目: 14
捐赠日期 1996-05-01
相关应用: 分类
缺失值? 有
网站点击数: 393977
这份数据集包含来自3种不同起源的葡萄酒的共178条记录。13个属性是葡萄酒的13种化学成分。通过化学分析可以来推断葡萄酒的起源。值得一提的是所有属性变量都是连续变量。
数据集特征: 多变量
记录数: 178
领域: 物理
属性特征: 整数,实数
属性数目: 13
捐赠日期 1991-07-01
相关应用: 分类
缺失值? 无
网站点击数: 337319
这是一个关于汽车测评的数据集,类别变量为汽车的测评,(unacc,ACC,good,vgood)分别代表(不可接受,可接受,好,非常好),而6个属性变量分别为「买入价」,「维护费」,「车门数」,「可容纳人数」,「后备箱大小」,「安全性」。值得一提的是6个属性变量全部是有序类别变量,比如「可容纳人数」值可为「2,4,more」,「安全性」值可为「low, med, high」。
数据集特征: 多变量
记录数: 1728
领域: N/A
属性特征: 类别型
属性数目: 6
捐赠日期 1997-06-01
相关应用: 分类
缺失值? 无
网站点击数: 272901
http://archive.ics.uci.edu/ml/index.php
加州大学欧文(尔湾)分校(UCI)University of California,Irvine是一所四年制公立大学,成立于1965年。它虽然是加州大学各成员学院中历史最短的一所,但排名却紧追伯克利、洛杉矶之后,列全美最好的公立学校前十名之一。加州大学尔湾分校除了拥有崭新优美的建筑外,教职人员皆具有深厚的专业背景,其中有三人为诺贝尔奖的获得者。UCI最好的学科是批判文学,生物学、社会生态学、英文、经济和政治科学,因为生物科学是全大学最好和学生选修最多的学科,不少有志将来念医科的青年人,都希望能在这里修读生物学。此外,加州尔湾分校有47%学生是亚裔美国人,包括不少在美国落地生根的中国人、日本人、南韩人、新马泰人等.
本页面收集到目前为止可以下载到的人脸数据库,可用于训练人脸深度学习模型。
数据库 | 描述 | 用途 | 获取方法 |
---|---|---|---|
WebFace | 10k+人,约500K张图片 | 非限制场景 | 链接 |
FaceScrub | 530人,约100k张图片 | 非限制场景 | 链接 |
YouTube Face | 1,595个人 3,425段视频 | 非限制场景、视频 | 链接 |
LFW | 5k+人脸,超过10K张图片 | 标准的人脸识别数据集 | 链接 |
MultiPIE | 337个人的不同姿态、表情、光照的人脸图像,共750k+人脸图像 | 限制场景人脸识别 | 链接 需购买 |
MegaFace | 690k不同的人的1000k人脸图像 | 新的人脸识别评测集合 | 链接 |
IJB-A | 人脸识别,人脸检测 | 链接 | |
CAS-PEAL | 1040个人的30k+张人脸图像,主要包含姿态、表情、光照变化 | 限制场景下人脸识别 | 链接 |
Pubfig | 200个人的58k+人脸图像 | 非限制场景下的人脸识别 | 链接 |
wyfAbout
常用数据集
Cifar10包含60000条数据,50000条用于训练,10000条用于测试。这60000条数据中,包含10类,每类6000张图片(5000训练,1000测试)。
Cifar100包含60000条数据,100类图片,每类600张(500训练,100测试)。
每张图片都为3232的RGB图像,故每张图片大小为3232*3=3072B。
CIFAR-10包含10个类别,50,000个训练图像,彩色图像大小:32×32,10,000个测试图像。CIFAR-100与CIFAR-10类似,包含100个类,每类有600张图片,其中500张用于训练,100张用于测试;这100个类分组成20个超类。图像类别均有明确标注。CIFAR对于图像分类算法测试来说是一个非常不错的中小规模数据集。
数据集大小:~170MB
下载地址:
http://www.cs.toronto.edu/~kriz/cifar.html
NIST名叫“美国国家标准与技术研究院”,该机构收集了两堆手写数字,结构比较混乱,Yann Lecun进行了一些整理,所以叫Mixed NIST。
Mnist数据集包含60000张图片,10个类别(0~9共10个数字),每张图片6000张(5000训练,1000测试)。
http://yann.lecun.com/exdb/mnist/index.html
1500万张图片,仿照WordNet的形式进行组织。
由斯坦福李飞飞整理,用于替代Pascal和labelMe数据集。
ImageNet数据集可谓是目前影响力最大的数据集,它极大地促进了计算机视觉的发展。根据ImageNet数据集,人们举办了ILSVRC(International Large Scale Visual Recognition Challenge)。该比赛从2010年开始举办,2017年为最后一届,在这8年间,计算机视觉取得空前发展。ILSVRC包括的比赛项目有:
历年比赛都有重大成果:
Oxford flower dataset
Oxford17包括17类花卉,每类80张图片,总共1360张图片。
Oxford102包括102类花卉,每类40~258张图片不等。
COCO(Common Objects in Context)是一个新的图像识别、分割和图像语义数据集,它有如下特点:
1)Object segmentation
2)Recognition in Context
3)Multiple objects per image
4)More than 300,000 images
5)More than 2 Million instances
6)80 object categories
7)5 captions per image
8)Keypoints on 100,000 people
COCO数据集由微软赞助,其对于图像的标注信息不仅有类别、位置信息,还有对图像的语义文本描述,COCO数据集的开源使得近两三年来图像分割语义理解取得了巨大的进展,也几乎成为了图像语义理解算法性能评价的“标准”数据集。
Google开源的开源了图说生成模型show and tell就是在此数据集上测试的,想玩的可以下下来试试哈。
数据集大小:~40GB
下载地址:http://mscoco.org/
PASCAL VOC挑战赛是视觉对象的分类识别和检测的一个基准测试,提供了检测算法和学习性能的标准图像注释数据集和标准的评估系统。PASCAL VOC图片集包括20个目录:人类;动物(鸟、猫、牛、狗、马、羊);交通工具(飞机、自行车、船、公共汽车、小轿车、摩托车、火车);室内(瓶子、椅子、餐桌、盆栽植物、沙发、电视)。PASCAL VOC挑战赛在2012年后便不再举办,但其数据集图像质量好,标注完备,非常适合用来测试算法性能。
数据集大小:~2GB
下载地址:
http://host.robots.ox.ac.uk/pascal/VOC/voc2012/index.html
过去几年机器学习的发展使得计算机视觉有了快速的进步,系统能够自动描述图片,对共享的图片创造自然语言回应。其中大部分的进展都可归因于 ImageNet 、COCO这样的数据集的公开使用。谷歌作为一家伟大的公司,自然也要做出些表示,于是乎就有了Open Image。
Open Image是一个包含~900万张图像URL的数据集,里面的图片通过标签注释被分为6000多类。该数据集中的标签要比ImageNet(1000类)包含更真实生活的实体存在,它足够让我们从头开始训练深度神经网络。
谷歌出品,必属精品!唯一不足的可能就是它只是提供图片URL,使用起来可能不如直接提供图片方便。
此数据集,笔者也未使用过,不过google出的东西质量应该还是有保障的。
数据集大小:~1.5GB(不包括图片)
下载地址:
https://github.com/openimages/dataset
Youtube-8M为谷歌开源的视频数据集,视频来自youtube,共计8百万个视频,总时长50万小时,4800类。为了保证标签视频数据库的稳定性和质量,谷歌只采用浏览量超过1000的公共视频资源。为了让受计算机资源所限的研究者和学生也可以用上这一数据库,谷歌对视频进行了预处理,并提取了帧级别的特征,提取的特征被压缩到可以放到一个硬盘中(小于1.5T)。
此数据集的下载提供下载脚本,由于国内网络的特殊原因,下载此数据经常断掉,不过还好下载脚本有续传功能,过一会儿重新连接就能再连上。可以写一个脚本检测到下载中断后就sleep一段时间然后再重新请求下载,这样就不用一直守着了。(截至发文,断断续续的下载,笔者表示还没下完呢……)
数据集大小:~1.5TB
下载地址:https://research.google.com/youtube8m/
Iris也称鸢尾花卉数据集,是一类多重变量分析的数据集。通过花萼长度,花萼宽度,花瓣长度,花瓣宽度4个属性预测鸢尾花卉属于(Setosa,Versicolour,Virginica)三个种类中的哪一类。
数据集特征: 多变量
记录数: 150
领域: 生活
属性特征: 实数
属性数目: 4
捐赠日期 1988-07-01
相关应用: 分类
缺失值? 无
网站点击数: 563347
该数据从美国1994年人口普查数据库抽取而来,可以用来预测居民收入是否超过50K,属性变量包含年龄,工种,学历,职业,人种等重要信息,值得一提的是,14个属性变量中有7个类别型变量。
数据集特征: 多变量
记录数: 48842
领域: 社会
属性特征: 类别型,整数
属性数目: 14
捐赠日期 1996-05-01
相关应用: 分类
缺失值? 有
网站点击数: 393977
这份数据集包含来自3种不同起源的葡萄酒的共178条记录。13个属性是葡萄酒的13种化学成分。通过化学分析可以来推断葡萄酒的起源。值得一提的是所有属性变量都是连续变量。
数据集特征: 多变量
记录数: 178
领域: 物理
属性特征: 整数,实数
属性数目: 13
捐赠日期 1991-07-01
相关应用: 分类
缺失值? 无
网站点击数: 337319
这是一个关于汽车测评的数据集,类别变量为汽车的测评,(unacc,ACC,good,vgood)分别代表(不可接受,可接受,好,非常好),而6个属性变量分别为「买入价」,「维护费」,「车门数」,「可容纳人数」,「后备箱大小」,「安全性」。值得一提的是6个属性变量全部是有序类别变量,比如「可容纳人数」值可为「2,4,more」,「安全性」值可为「low, med, high」。
数据集特征: 多变量
记录数: 1728
领域: N/A
属性特征: 类别型
属性数目: 6
捐赠日期 1997-06-01
相关应用: 分类
缺失值? 无
网站点击数: 272901
http://archive.ics.uci.edu/ml/index.php
加州大学欧文(尔湾)分校(UCI)University of California,Irvine是一所四年制公立大学,成立于1965年。它虽然是加州大学各成员学院中历史最短的一所,但排名却紧追伯克利、洛杉矶之后,列全美最好的公立学校前十名之一。加州大学尔湾分校除了拥有崭新优美的建筑外,教职人员皆具有深厚的专业背景,其中有三人为诺贝尔奖的获得者。UCI最好的学科是批判文学,生物学、社会生态学、英文、经济和政治科学,因为生物科学是全大学最好和学生选修最多的学科,不少有志将来念医科的青年人,都希望能在这里修读生物学。此外,加州尔湾分校有47%学生是亚裔美国人,包括不少在美国落地生根的中国人、日本人、南韩人、新马泰人等。
推荐系统常用的:
1)MovieLens
MovieLens数据集中,用户对自己看过的电影进行评分,分值为1~5。MovieLens包括两个不同大小的库,适用于不同规模的算法.小规模的库是943个独立用户对1682部电影作的10000次评分的数据;大规模的库是6040个独立用户对3900部电影作的大约100万次评分。
2)EachMovie
HP/Compaq的DEC研究中心曾经在网上架设EachMovie电影推荐系统对公众开放.之后,这个推荐系统关闭了一段时间,其数据作为研究用途对外公布,MovieLens的部分数据就是来自于这个数据集的.这个数据集有72916个用户对l628部电影进行的2811983次评分。早期大量的协同过滤的研究工作都 是基于这个数据集的。2004年HP重新开放EachMovie,这个数据集就不提供公开下载了。
3)BookCrossing
这个数据集是网上的Book-Crossing图书社区的278858个用户对271379本书进行的评分,包括显式和隐式的评分。这些用户的年龄等人口统计学属性(demographic feature)都以匿名的形式保存并供分析。这个数据集是由Cai-Nicolas Ziegler使用爬虫程序在2004年从Book-Crossing图书社区上采集的。
4)Jester Joke
Jester Joke是一个网上推荐和分享笑话的网站。这个数据集有73496个用户对100个笑话作的410万次评分。评分范围是-10~10的连续实数。这些数据是由加州大学伯克利分校的Ken Goldberg公布的。
5)Netflix
这个数据集来自于电影租赁网址Netflix的数据库。Netflix于2005年底公布此数据集并设立百万美元的奖金(netflix prize),征集能够使其推荐系统性能上升10%的推荐算法和架构。这个数据集包含了480189个匿名用户对大约17770部电影作的大约lO亿次评分。
6)Usenet Newsgroups
这个数据集包括20个新闻组的用户浏览数据。最新的应用是在KDD2007上的论文。新闻组的内容和讨论的话题包括计算机技术、摩托车、篮球、政治等。用户们对这些话题进行评价和反馈。
7)UCI知识库
UCI知识库是Blake等人在1998年开放的一个用于机器学习和评测的数据库,其中存储大量用于模型训练的标注样本。
其他:
8) http://snap.stanford.edu/na09/resources.html
9) http://archive.ics.uci.edu/ml/
10) http://www.ituring.com.cn/article/details/1188
转自: http://www.cnblogs.com/zz-boy/archive/2012/08/27/2658063.html
本页面收集到目前为止可以下载到的人脸数据库,可用于训练人脸深度学习模型。
数据库 | 描述 | 用途 | 获取方法 |
---|---|---|---|
WebFace | 10k+人,约500K张图片 | 非限制场景 | 链接 |
FaceScrub | 530人,约100k张图片 | 非限制场景 | 链接 |
YouTube Face | 1,595个人 3,425段视频 | 非限制场景、视频 | 链接 |
LFW | 5k+人脸,超过10K张图片 | 标准的人脸识别数据集 | 链接 |
MultiPIE | 337个人的不同姿态、表情、光照的人脸图像,共750k+人脸图像 | 限制场景人脸识别 | 链接 需购买 |
MegaFace | 690k不同的人的1000k人脸图像 | 新的人脸识别评测集合 | 链接 |
IJB-A | 人脸识别,人脸检测 | 链接 | |
CAS-PEAL | 1040个人的30k+张人脸图像,主要包含姿态、表情、光照变化 | 限制场景下人脸识别 | 链接 |
Pubfig | 200个人的58k+人脸图像 | 非限制场景下的人脸识别 | 链接 |
数据库 | 描述 | 用途 | 获取方法 |
---|---|---|---|
FDDB | 2845张图片中的5171张脸 | 标准人脸检测评测集 | 链接 |
IJB-A | 人脸识别,人脸检测 | 链接 | |
Caltech10k Web Faces | 10k+人脸,提供双眼和嘴巴的坐标位置 | 人脸点检测 | 链接 |
数据库 | 描述 | 用途 | 获取方法 |
---|---|---|---|
CK+ | 137个人的不同人脸表情视频帧 | 正面人脸表情识别 | 链接 |
数据库 | 描述 | 用途 | 获取方法 |
---|---|---|---|
IMDB-WIKI | 包含:IMDb中20k+个名人的460k+张图片 和维基百科62k+张图片, 总共: 523k+张图片 | 名人年龄、性别 | 链接 |
Adience | 包含2k+个人的26k+张人脸图像 | 人脸性别,人脸年龄段(8组) | 链接 |
CACD2000 | 2k名人160k张人脸图片 | 人脸年龄 | 链接 |
数据库 | 描述 | 用途 | 获取方法 |
---|---|---|---|
IMDB-WIKI | 包含:IMDb中20k+个名人的460k+张图片 和维基百科62k+张图片, 总共: 523k+张图片 | 名人年龄、性别 | 链接 |
Adience | 包含2k+个人的26k+张人脸图像 | 人脸性别,人脸年龄段(8组) | 链接 |
数据库 | 描述 | 用途 | 获取方法 |
---|---|---|---|
数据库 | 描述 | 用途 | 获取方法 |
数据库 | 描述 | 用途 | 获取方法 |
---|---|---|---|
CeleBrayA | 200k张人脸图像40多种人脸属性 | 人脸属性识别 | 获取方法 |
GitHub:DeepFace
http://www.cl.cam.ac.uk/research/dtg/attarchive/facedatabase.html
AT&T(American Telephone & Telegraph,美国电话电报公司),是一家美国电信公司,美国第二大移动运营商。美国电话电报公司有8个主要部门 :贝尔实验室、商业市场集团、数据系统公司 、通用市场集团 、网络运营集团、网络系统集团、技术系统集团、公司国际集团.
常用的基本上UCI和w3c的。关于源代码,网上有很多公开源码的算法包,例如最为著名的Weka,MLC++等。Weka还在不断的更新其算法,下载地址:
http://www.cs.waikato.ac.nz/ml/weka/
UCI收集的机器学习数据集
ftp://pami.sjtu.edu.cn
http://www.ics.uci.edu/~mlearn/\MLRepository.htm
statlib
http://liama.ia.ac.cn/SCILAB/scilabindexgb.htm
http://lib.stat.cmu.edu/
样本数据库
http://kdd.ics.uci.edu/
http://www.ics.uci.edu/~mlearn/MLRepository.html
关于基金的数据挖掘的网站
http://www.gotofund.com/index.asp
http://lans.ece.utexas.edu/~strehl/
reuters数据集
http://www.research.att.com/~lewis/reuters21578.html
各种数据集:
http://kdd.ics.uci.edu/summary.data.type.html
http://www.mlnet.org/cgi-bin/mlnetois.pl/?File=datasets.html
http://lib.stat.cmu.edu/datasets/
http://dctc.sjtu.edu.cn/adaptive/datasets/
http://fimi.cs.helsinki.fi/data/
http://www.almaden.ibm.com/software/quest/Resources/index.shtml
http://miles.cnuce.cnr.it/~palmeri/datam/DCI/
进行文本分类&WEB
http://www-2.cs.cmu.edu/afs/cs/project/theo-11/www/naive-bayes.html
http://www.w3.org/TR/WD-logfile-960221.html
http://www.w3.org/Daemon/User/Config/Logging.html#AccessLog
http://www.w3.org/1998/11/05/WC-workshop/Papers/bala2.html
http://www-2.cs.cmu.edu/afs/cs.cmu.edu/project/theo-11/www/wwkb/
http://www.web-caching.com/traces-logs.html
http://www-2.cs.cmu.edu/webkb
http://www.cs.auc.dk/research/DP/tdb/TimeCenter/TimeCenterPublications/TR-75.pdf
http://www.cs.cornell.edu/projects/kddcup/index.html
时间序列数据的网址
http://www.stat.wisc.edu/~reinsel/bjr-data/
apriori算法的测试数据
http://www.almaden.ibm.com/cs/quest/syndata.html
数据生成器的链接
http://www.cse.cuhk.edu.hk/~kdd/data_collection.html
http://www.almaden.ibm.com/cs/quest/syndata.html
关联:
http://flow.dl.sourceforge.net/sourceforge/weka/regression-datasets.jar
http://www.almaden.ibm.com/software/quest/Resources/datasets/syndata.html#assocSynData
WEKA:
http://flow.dl.sourceforge.net/sourceforge/weka/regression-datasets.jar
1。A jarfile containing 37 classification problems, originally obtained from the UCI repository
http://prdownloads.sourceforge.net/weka/datasets-UCI.jar
2。A jarfile containing 37 regression problems, obtained from various sources
http://prdownloads.sourceforge.net/weka/datasets-numeric.jar
3。A jarfile containing 30 regression datasets collected by Luis Torgo
http://prdownloads.sourceforge.net/weka/regression-datasets.jar
癌症基因:
http://www.broad.mit.edu/cgi-bin/cancer/datasets.cgi
金融数据:
http://lisp.vse.cz/pkdd99/Challenge/chall.htm
kdnuggets 相关链接数据集(借花献佛了):
http://www.kdnuggets.com/datasets/index.html
另一个人提供的
http://www.cs.toronto.edu/~roweis/data.html
http://kdd.ics.uci.edu/summary.task.type.html
http://www-2.cs.cmu.edu/afs/cs.cmu.edu/project/theo-20/www/data/
http://www-2.cs.cmu.edu/afs/cs.cmu.edu/project/theo-11/www/wwkb/
http://www.phys.uni.torun.pl/~duch/software.html
在下面的网址可以找到reuters数据集
http://www.research.att.com/~lewis/reuters21578.html
以下网址上有各种数据集:
http://kdd.ics.uci.edu/summary.data.type.html
进行文本分类,还有一个数据集是可以用的,即rainbow的数据集
http://www-2.cs.cmu.edu/afs/cs/project/theo-11/www/naive-bayes.html
Download the Financial Data (~17.5M zipped file, ~67M unzipped data)
Download the Medical Data (~2M zipped file, ~6M unzipped data)
http://lisp.vse.cz/pkdd99/Challenge/chall.htm
http://www.52ml.net/20458.html
http://blog.csdn.net/prettywhitewolf_xiao/article/details/7265468
http://www.jianshu.com/p/be23b3870d2e
http://deeplearning.net/demos/
http://deeplearning.net/datasets/
https://www.cnblogs.com/alexanderkun/p/4197796.html 这篇博客很全
http://blog.csdn.net/chenriwei2/article/details/50631212
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。