赞
踩
scikit-learn(sklearn)库提供了一些自带的数据集供用户使用,这些数据集可以用于机器学习算法的训练、测试和演示。这些自带数据集包括了各种不同类型的数据,涵盖了分类、回归、聚类、降维等不同任务。
下面是一些常用的自带数据集示例:
鸢尾花数据集(Iris dataset):经典的分类数据集,包含了150个样本,分为3个类别,每个样本有4个特征。
手写数字数据集(Digits dataset):包含了1797个手写数字的灰度图像,每个图像大小为8x8,用于识别手写数字。
波士顿房价数据集(Boston Housing dataset):用于回归任务,包含了506个样本和13个特征,目标值是房屋价格的中位数。
乳腺癌数据集(Breast Cancer dataset):用于二分类任务,包含了569个肿瘤样本和30个特征,通过特征预测肿瘤是良性还是恶性。
新闻组数据集(20 Newsgroups dataset):用于文本分类任务,包含了约20,000个新闻文档,分为20个不同的主题类别。
手写字母数据集(Letter recognition dataset):包含了20,000个手写字母图像样本,用于识别字母。
以上只是一小部分示例,sklearn中还有更多的自带数据集可供使用。可以通过sklearn.datasets
模块中的函数加载这些数据集,例如使用load_iris()
加载鸢尾花数据集,使用load_digits()
加载手写数字数据集等。加载后的数据集对象通常包括数据、目标值、特征名称等信息,方便进行机器学习任务的处理和分析。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。