赞
踩
sklearn库学习
# 已打包的数据加载:sklearn.datasets.load_*
# 导入方法,导入数据集模块,加载指定数据,示例如下
from sklearn import datasets
diabetes_X, diabetes_y = datasets.load_diabetes(return_X_y=True)
# diabetes_X.shape:(442, 10)
# diabetes_y.shape:(442,)
常见的数据集介绍
# 下载示例 from sklearn.datasets import fetch_20newsgroups newsgroups_train = fetch_20newsgroups(subset='train') from pprint import pprint pprint(list(newsgroups_train.target_names)) ''' ———————————————— ['alt.atheism', 'comp.graphics', 'comp.os.ms-windows.misc', 'comp.sys.ibm.pc.hardware', 'comp.sys.mac.hardware', 'comp.windows.x',...... ———————————————— '''
文本相关
有关人脸识别的数据集
fetch_lfw_pairs 人脸数据集
fetch_lfw_people 人脸数据集
fetch_olivetti_faces 人脸数据集
其他
可生成的数据类型
datasets.make_biclusters datasets.make_blobs datasets.make_checkerboard datasets.make_circles datasets.make_classification datasets.make_friedman1 datasets.make_friedman2 datasets.make_friedman3 datasets.make_gaussian_quantiles datasets.make_hastie_10_2 datasets.make_low_rank_matrix datasets.make_moons datasets.make_multilabel_classification datasets.make_regression datasets.make_s_curve datasets.make_sparse_coded_signal datasets.make_sparse_spd_matrix datasets.make_sparse_uncorrelated datasets.make_spd_matrix datasets.make_swiss_roll
生成方法 | 介绍 |
---|---|
make_blobs() | 多类单标签数据集,为每个类分配一个或多个正太分布的点集 |
make_classification() | 多类单标签数据集,为每个类分配一个或多个正太分布的点集,提供了为数据添加噪声的方式,包括维度相关性,无效特征以及冗余特征等 |
make_gaussian-quantiles() | 将一个单高斯分布的点集划分为两个数量均等的点集,作为两类 |
make_hastie-10-2() | 产生一个相似的二元分类数据集,有10个维度 |
make_circle 和 make_moom() | 产生二维二元分类数据集来测试某些算法的性能,可以为数据集添加噪声,可以为二元分类器产生一些球形判决界面的数据 |
安装Sklearn库后可以在Python对应的安装目录下.\Python3.10\Lib\site-packages\sklearn
下查看相关的源码,配合源码学习,事半功倍
__init__.py
的__all__
列表就是所有自带的数据集了,每个数据集获取对应的函数可以看对上方的import内容test
目录下的文件,里面有对应的示例Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。