赞
踩
1、【回归】波士顿房价数据集 load_boston
2、【分类】鸢尾花数据集 load_iris
3、【回归】糖尿病数据集 load_diabetas
4、【分类】手写数字数据集 load_digits
5、【回归】linnerud数据集 load_linnerud
6、【分类】红酒数据集 load_wine
7、【分类】乳腺癌数据集 load_breast_cancer
1、Olivetti人脸数据集
from sklearn.datasets import fetch_olivetti_faces
数据集中的图片于1992年4月至1994年4月在剑桥at&T实验室拍摄。40个不同的被试有10幅不同的照片。这些照片是在不同的时间拍摄的,这些照片会改变光线、面部表情(睁开/闭上眼睛、微笑/不微笑)和面部细节(戴眼镜/不戴眼镜)。所有的图像都是在一个黑暗均匀的背景下拍摄的,受试者处于直立、正面的位置(允许有一些侧移)。
2、20个新闻组文档数据集
代码见官网及下面的链接
数据集包含大约20个主题的18000个新闻组文档,用于文本分类、文本挖据和信息检索研究。
参考:https://blog.csdn.net/imstudying/article/details/77876159
3、户外人脸数据集
from sklearn.datasets import fetch_lfw_people
此数据集是通过互联网收集的名人JPEG图片的集合,所有详细信息可在官方网站上获取:http://vis-www.cs.umass.edu/lfw/
用于人脸识别研究。
4、森林覆盖类型数据集
from sklearn.datasets import fetch_covtype
该数据集中的样本对应于美国30×30m的森林样本。每个样本有54个特征,在数据集的主页上有描述:https://archive.ics.uci.edu/ml/datasets/Covertype
用于多分类问题。
5、RCV1数据集
from sklearn.datasets import fetch_rcv1
路透社语料库第一卷(RCV1)是一个超过80万手动分类的新闻热线故事档案,由路透社有限公司提供,用于研究目的。有关数据集的详细说明,请参见
[1]Lewis, D. D., Yang, Y., Rose, T. G., & Li, F. (2004). RCV1: A new benchmark collection for text categorization research. The Journal of Machine Learning Research, 5, 361-397.
6、Kddcup 99数据集
from sklearn.datasets import fetch_kddcup99
网络入侵检测数据库
1998年美国国防部高级规划署(DARPA)在MIT林肯实验室进行了一项入侵检测评估项目。林肯实验室建立了模拟美国空军局域网的一个网络环境,收集了9周时间的 TCPdump(*) 网络连接和系统审计数据,仿真各种用户类型、各种不同的网络流量和攻击手段,使它就像一个真实的网络环境。这些TCPdump采集的原始数据被分为两个部分:7周时间的训练数据 (**) 大概包含5,000,000多个网络连接记录,剩下的2周时间的测试数据大概包含2,000,000个网络连接记录。
一个网络连接定义为在某个时间内从开始到结束的TCP数据包序列,并且在这段时间内,数据在预定义的协议下(如TCP、UDP)从源IP地址到目的IP地址的传递。每个网络连接被标记为正常(normal)或异常(attack),异常类型被细分为4大类共39种攻击类型,其中22种攻击类型出现在训练集中,另有17种未知攻击类型出现在测试集中。
参考至:https://blog.csdn.net/u010913001/article/details/51383467
7、加利福尼亚住房数据
from sklearn.datasets import fetch_california_housing
这个数据集来自1990年的美国人口普查,每个普查区块组使用一行数据。区块组是美国人口普查局发布样本数据的最小地理单位(一个区块组的人口通常为600到3000人)。
数据集来自:http://lib.stat.cmu.edu/datasets/
(1)Generators for classification and clustering(分类和聚类)
Single label
Multi label
Biclustering
(2)Generators for regression(回归)
(3)Generators for manifold learning(流行学习)
感兴趣的参考:https://www.cnblogs.com/jiangxinyang/p/9314256.html
(4)Generators for decomposition(分解)
矩阵分解
简介嘛,下次一定! 0_o
(1)Sample images
(2)Datasets in svmlight / libsvm format
(3)Downloading datasets from the openml.org repository
(4)Loading from external datasets
赞
踩
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。