赞
踩
目录
2. 波士顿房价数据集 (Boston Housing Dataset)
5. 乳腺癌数据集 (Breast Cancer Dataset)
Scikit-learn库中包含了一些内置的标准数据集,这些数据集通常用于学习、测试和验证机器学习算法。以下是一些常见的Scikit-learn内置数据集及其详细介绍,以及如何获取这些数据的方法。
1. 鸢尾花数据集 (Iris Dataset)
- from sklearn.datasets import load_iris
- iris = load_iris()
2. 波士顿房价数据集 (Boston Housing Dataset)
- from sklearn.datasets import load_boston
- boston = load_boston()
3. 糖尿病数据集 (Diabetes Dataset)
- from sklearn.datasets import load_diabetes
- diabetes = load_diabetes()
4. 手写数字数据集 (Digits Dataset)
- from sklearn.datasets import load_digits
- digits = load_digits()
5. 乳腺癌数据集 (Breast Cancer Dataset)
- from sklearn.datasets import load_breast_cancer
- breast_cancer = load_breast_cancer()
Scikit-learn提供的内置数据集可以通过sklearn.datasets
模块直接加载,这些数据集一般以字典的形式返回。主要包括以下几个键:
data
:特征数据,通常是一个二维数组。target
:目标标签,通常是一维数组。DESCR
:数据集的详细描述。feature_names
:特征名称。target_names
:目标名称(分类任务中)。下面是如何加载这些数据集的示例:
- from sklearn.datasets import load_iris
-
- # 加载数据集
- iris = load_iris()
- # 查看数据集描述
- print(iris.DESCR)
- # 查看特征数据
- print(iris.data)
- # 查看目标标签
- print(iris.target)
- # 查看特征名称
- print(iris.feature_names)
- # 查看目标名称
- print(iris.target_names)
一旦数据集加载到内存中,可以直接用于训练和评估机器学习模型。例如,使用鸢尾花数据集进行分类任务:
- from sklearn.datasets import load_iris
- from sklearn.model_selection import train_test_split
- from sklearn.ensemble import RandomForestClassifier
- from sklearn.metrics import accuracy_score
-
- # 加载数据集
- iris = load_iris()
- X = iris.data
- y = iris.target
-
- # 分割数据集为训练集和测试集
- X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
-
- # 训练模型
- model = RandomForestClassifier()
- model.fit(X_train, y_train)
-
- # 预测
- y_pred = model.predict(X_test)
-
- # 评估模型
- accuracy = accuracy_score(y_test, y_pred)
- print(f"Accuracy: {accuracy:.2f}")
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。