赞
踩
以boston房价数据集为例子,每个样本有13个特征,画出矩阵散点图:
pd.plotting.scatter_matrix(features, alpha = 0.3, figsize = (14,8), diagonal = 'kde');
对角线部分表示第i个特征的分布,x轴为该特征的值,y轴为该特征的值出现的次数,也就是说这个图表示第i个特征的密度估计。
第i行j列的非对角线部分,表示第i个特征与第j个特征的散点图,用于描述这两个特征的相关性。x轴为第j个特征,y轴为第i个特征。
正相关:自变量x变大时,因变量y随之变大;
负相关:自变量x变大时,因变量y随之变小;
不相关:因变量y不随自变量x的变化而变化。
可以认为散点图越接近y=x直线时越正相关,越接近y=-x直线时越负相关。
如果还是拿不准某对特征是否相关的话,可以用pandas的corr函数量化两个特征之间的相关性。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。