当前位置:   article > 正文

SKLearn自带数据集_sklearn数据集

sklearn数据集

scikit-learn(sklearn)库提供了一些自带的数据集供用户使用,这些数据集可以用于机器学习算法的训练、测试和演示。这些自带数据集包括了各种不同类型的数据,涵盖了分类、回归、聚类、降维等不同任务。

下面是一些常用的自带数据集示例:

  1. 鸢尾花数据集(Iris dataset):经典的分类数据集,包含了150个样本,分为3个类别,每个样本有4个特征。

  2. 手写数字数据集(Digits dataset):包含了1797个手写数字的灰度图像,每个图像大小为8x8,用于识别手写数字。

  3. 波士顿房价数据集(Boston Housing dataset):用于回归任务,包含了506个样本和13个特征,目标值是房屋价格的中位数。

  4. 乳腺癌数据集(Breast Cancer dataset):用于二分类任务,包含了569个肿瘤样本和30个特征,通过特征预测肿瘤是良性还是恶性。

  5. 新闻组数据集(20 Newsgroups dataset):用于文本分类任务,包含了约20,000个新闻文档,分为20个不同的主题类别。

  6. 手写字母数据集(Letter recognition dataset):包含了20,000个手写字母图像样本,用于识别字母。

以上只是一小部分示例,sklearn中还有更多的自带数据集可供使用。可以通过sklearn.datasets模块中的函数加载这些数据集,例如使用load_iris()加载鸢尾花数据集,使用load_digits()加载手写数字数据集等。加载后的数据集对象通常包括数据、目标值、特征名称等信息,方便进行机器学习任务的处理和分析。

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/空白诗007/article/detail/963012
推荐阅读
相关标签
  

闽ICP备14008679号