当前位置:   article > 正文

Sklearn 中的可用数据集_1. 加载sklearn的红酒数据集,并进行简单的数据探索。 2. 将数据集分为训练集和测

1. 加载sklearn的红酒数据集,并进行简单的数据探索。 2. 将数据集分为训练集和测
  • 查找并加载此数据集

  • 你能找到描述吗?

  • 类的名称是什么?

  • 有哪些特点?

  • 数据和标记数据在哪里?

练习 2:

创建特征ashcolor_intensity葡萄酒数据集的散点图。

练习 3:

创建葡萄酒数据集特征的散点矩阵。

练习 4:

获取 Olivetti 人脸数据集并可视化人脸。

解决方案


练习 1 的解决方案

加载“葡萄酒数据集”:

sklearn 导入 数据集

酒 = 数据集。load_wine ()

可以通过“DESCR”访问描述:

打印(酒。DESCR )

输出:

… _wine_dataset:

葡萄酒识别数据集


**数据集特征:**

:实例数:178(三个类中的每个类50个)

:属性数量:13 个数字、预测属性和类别

:属性信息:

  • 酒精

  • 苹果酸

  • 灰分的碱度

  • 总酚

  • 黄酮类

  • 非黄酮酚

  • 原花青素

  • 颜色强度

  • 色调

  • 稀释葡萄酒的 OD280/OD315

  • 脯氨酸

  • 班级:

  • class_0

  • class_1

  • class_2

:汇总统计:

==================================================

最小最大平均标准差

==================================================

酒精:11.0 14.8 13.0 0.8

苹果酸:0.74 5.80 2.34 1.12

灰分:1.36 3.23 2.36 0.27

灰分碱度:10.6 30.0 19.5 3.3

镁:70.0 162.0 99.7 14.3

总酚:0.98 3.88 2.29 0.63

类黄酮:0.34 5.08 2.03 1.00

非黄酮酚:0.13 0.66 0.36 0.12

原花青素:0.41 3.58 1.59 0.57

颜色强度:1.3 13.0 5.1 2.3

色相:0.48 1.71 0.96 0.23

稀释葡萄酒的 OD280/OD315:1.27 4.00 2.61 0.71

脯氨酸:278 1680 746 315

==================================================

:缺少属性值:无

:类分布:class_0 (59), class_1 (71), class_2 (48)

:创作者: RA 费舍尔

:捐助者:迈克尔·马歇尔 (MARSHALL%PLU@io.arc.nasa.gov)

:日期:1988年7月

这是 UCI ML Wine 识别数据集的副本。

https://archive.ics.uci.edu/ml/machine-learning-databases/wine/wine.data

数据是对同一地区种植的葡萄酒进行化学分析的结果

三个不同的种植者在意大利的地区。有十三种不同

对三种类型的不同成分进行的测量

葡萄酒。

原业主:

Forina, M. 等人,PARVUS -

用于数据探索、分类和关联的可扩展包。

制药和食品分析与技术研究所,

Via Brigata Salerno, 16147 热那亚, 意大利。

引文:

Lichman, M. (2013)。UCI 机器学习库

[https://archive.ics.uci.edu/ml]。加州尔湾:加州大学,

信息与计算机科学学院。

… 主题:: 参考

(1) S. Aeberhard、D. Coomans 和 O. de Vel,

高维设置中分类器的比较,

技术。众议员编号 92-02, (1992), Dept. of Computer Science and Dept.

北昆士兰詹姆斯库克大学数学与统计专业。

(也提交给 Technometrics)。

该数据与许多其他数据一起用于比较各种

分类器。这些类是可分离的,虽然只有 RDA

已实现100%正确分类。

(RDA:100%,QDA 99.4%,LDA 98.9%,1NN 96.1%(z 变换数据))

(所有结果都使用留一法)

(2) S. Aeberhard、D. Coomans 和 O. de Vel,

“RDA 的分类性能”

技术。众议员编号 92-01, (1992), Dept. of Computer Science and Dept.

北昆士兰詹姆斯库克大学数学与统计专业。

(也提交给化学计量学杂志)。

可以像这样检索类和功能的名称:

打印(酒。target_names )

打印(酒。feature_names )

输出:

[‘class_0’‘class_1’‘class_2’]

[‘酒精’,‘苹果酸’,‘灰分’,‘alcalinity_of_ash’,‘镁’,‘total_phenols’,‘flavanoids’,‘nonflavanoid_phenols’,‘proanthocyanins’,‘color_intensity’,‘hue’,'od35_ofwins , ‘脯氨酸’]

数据 = 酒。数据

labelled_data = wine 。目标

练习 2 的解决方案:

sklearn 导入 数据集

导入 matplotlib.pyplot 作为 plt

酒 = 数据集。load_wine ()

features = ‘ash’ , ‘color_intensity’

features_index = [ wine . 功能名称。索引(特征[ 0 ]),

酒。功能名称。索引(特征[ 1 ])]

颜色 = [ ‘蓝色’ 、 ‘红色’ 、 ‘绿色’ ]

标签, 颜色 拉链范围len个(酒。target_names )), 颜色):

PLT 。分散(酒。数据[酒。目标==标签, 特征索引[ 0 ]],

酒。数据[酒。目标==标签, 特征索引[ 1 ]],

标签=酒. target_names [标签],

c =颜色)

PLT 。xlabel ( features [ 0 ])

plt 。ylabel ( features [ 1 ])

plt 。图例(loc = ‘左上’ )

plt 。显示()

练习 3 的解决方案:

sklearn导入数据集导入****熊猫 作为 pd

酒 = 数据集。load_wine ()

def rotate_labels ( df , axes ):

“”" 改变标签输出的旋转,

y 标签水平和 x 标签垂直 “”"

n = len ( df . columns )

for x in range ( n ):

for y in range ( n ):

# 获取子图的轴

ax = axs [ x , y ]

# 使 x 轴名称垂直

ax 。轴。标签。set_rotation (90 )

#,使y轴的名称水平

斧。yaxis 。标签。set_rotation ( 0 )

# 确保 y 轴名称在绘图区域

ax 之外。yaxis 。标签板 = 50

wine_df = pd 。数据帧(酒。数据, 列=酒。feature_names )

AXS = PD 。绘图。scatter_matrix ( wine_df ,

c = wine . target ,

figsize = ( 8 , 8 ),

);

rotate_labels (wine_df , AXS )

练习 4 的解答

sklearn.datasets 导入 fetch_olivetti_faces

# 获取人脸数据

faces = fetch_olivetti_faces ()

脸。键()

输出:

dict_keys([‘data’, ‘images’, ‘target’, ‘DESCR’])

n_samples , n_features = faces 。数据。形状

打印((n_samples , n_features ))

输出:

(400, 4096)

NP . 平方(4096 )

输出:

64.0

脸。图像。形状

输出:

(400, 64, 64)

numpy 导入****为 np

打印( np . all ( faces . images . reshape (( 400 , 4096 )) == faces . data ))

输出:

真的

自我介绍一下,小编13年上海交大毕业,曾经在小公司待过,也去过华为、OPPO等大厂,18年进入阿里一直到现在。

深知大多数Python工程师,想要提升技能,往往是自己摸索成长或者是报班学习,但对于培训机构动则几千的学费,着实压力不小。自己不成体系的自学效果低效又漫长,而且极易碰到天花板技术停滞不前!

因此收集整理了一份《2024年Python开发全套学习资料》,初衷也很简单,就是希望能够帮助到想自学提升又不知道该从何学起的朋友,同时减轻大家的负担。

img

img

img

img

img

img

既有适合小白学习的零基础资料,也有适合3年以上经验的小伙伴深入学习提升的进阶课程,基本涵盖了95%以上前端开发知识点,真正体系化!

由于文件比较大,这里只是将部分目录大纲截图出来,每个节点里面都包含大厂面经、学习笔记、源码讲义、实战项目、讲解视频,并且后续会持续更新

如果你觉得这些内容对你有帮助,可以扫码获取!!!(备注Python)

(img-baMl5fjf-1712551369604)]

[外链图片转存中…(img-f46UbYgy-1712551369605)]

img

img

img

img

既有适合小白学习的零基础资料,也有适合3年以上经验的小伙伴深入学习提升的进阶课程,基本涵盖了95%以上前端开发知识点,真正体系化!

由于文件比较大,这里只是将部分目录大纲截图出来,每个节点里面都包含大厂面经、学习笔记、源码讲义、实战项目、讲解视频,并且后续会持续更新

如果你觉得这些内容对你有帮助,可以扫码获取!!!(备注Python)

img
声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/代码探险家/article/detail/748906
推荐阅读
相关标签
  

闽ICP备14008679号