当前位置:   article > 正文

python-机器学习常见数据集之wave,iris,wine,boston,虚拟数据集,及数据划分方法_swirski数据集

swirski数据集

目录

1 数据集介绍

1.1wave数据集

1.1.1数据准备

1.1.2数据展示 

1.2鸢尾花数据集

1.2.1数据准备 

1.2.2数据展示,鸢尾花有四个特征

​编辑 1.3波士顿房价数据集

1.3.1数据导入 

1.3.2数据展示

1.4葡萄酒数据集

1.4.1模块导入

1.4.2数据展示  ,含有多个特征,划分为三类0,1,2​编辑

1.5创建虚拟数据集

1.5.1数据

1.5.2数据展示 

2 数据划分 

1 数据集介绍

1.1wave数据集

1.1.1数据准备

n_samples为数据数目

import mglearn

X,y=mglearn.datasets.make_wave(n_samples=10)

print(X,y)

1.1.2数据展示 

1.2鸢尾花数据集

1.2.1数据准备 

 

from sklearn.datasets import load_iris

iris=load_iris()
x=iris.data
y=iris.target
feature=iris.feature_names

print(x,'\n',y,'\n',feature)

1.2.2数据展示,鸢尾花有四个特征

 1.3波士顿房价数据集

1.3.1数据导入 

import numpy as np
import pandas as pd

data_url = "http://lib.stat.cmu.edu/datasets/boston"
raw_df = pd.read_csv(data_url, sep=r"\s+", skiprows=22, header=None)
data = np.hstack([raw_df.values[::2, :], raw_df.values[1::2, :2]])
target = raw_df.values[1::2, 2]

print(data,'\n',target)

1.3.2数据展示

1.4葡萄酒数据集

1.4.1模块导入

from sklearn.datasets import load_wine

wine=load_wine()
wine_data=wine.data
wine_target=wine.target
wine_feature=wine.feature_names

print(wine_data,wine_target,wine_feature) 

1.4.2数据展示  ,含有多个特征,划分为三类0,1,2

1.5创建虚拟数据集

1.5.1数据

from sklearn.datasets import make_blobs

#n_samples为数据数目,n_features=数据特征数目,centers数据类别,random_state随机种子控制随机过程
x,y = make_blobs(n_samples= 10,n_features= 2, centers= 4, random_state= 1)

print(x,'\n',y)

1.5.2数据展示 

 

2 数据划分 

from sklearn.model_selection import train_test_split

x_train,x_test,y_train,y_test=train_test_split(x,y,test_size=0.2,random_state=20)

在train_test_split函数内

其中x,y,分别为我们导入的数据的特征和数值(类别)

test_size=0.2,表示x_test,和y_test,测试数据占比0.2

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/Gausst松鼠会/article/detail/483914
推荐阅读
相关标签
  

闽ICP备14008679号