赞
踩
目录
5 相关性分析(皮尔逊,肯德尔,斯皮尔曼) (Matlab代码实现)
利用热力图可以看数据表里多个特征两两的相似度。
seaborn.heatmap()热力图,常用于展示一组变量的相关系数矩阵,列联表的数据分布,通过热力图我们可以直观地看到所给数值大小的差异状况。
热力图,又名相关系数图。根据热力图中不同方块颜色对应的相关系数的大小,可以判断出变量之间相关性的大小。两个变量之间相关系数的计算公式为:
公式中,ρ 表示相关系数,Cov表示协方差,E表示数学期望/均值
值得注意的是,该相关系数只能度量出变量之间的线性相关关系;也就是说,相关系数越高,则变量间的线性相关程度越高。对于相关系数小的两个变量,只能说明变量间的线性相关程度弱,但不能说明变量之间不存在其它的相关关系,如曲线关系等。
seaborn.heatmap(data, *, vmin=None, vmax=None, cmap=None, center=None, robust=False, annot=None, fmt='.2g', annot_kws=None, linewidths=0, linecolor='white', cbar=True, cbar_kws=None, cbar_ax=None, square=False, xticklabels='auto', yticklabels='auto', mask=None, ax=None, **kwargs)
========(1)热力图输入数据参数=======
data:指定绘制热力图的数据集,根据data传入的值画出热力图,一般是二维矩阵
========(2)热力图矩阵块颜色参数=======
vmin,vmax:用于指定图例中最小值与最大值的显示值
cmap:指定一个colormap对象,用于热力图的填充色
center:指定颜色中心值,通过该参数可以调整热力图的颜色深浅
robust:默认取值False;如果是False,且没设定vmin和vmax的值,热力图的颜色映射范围根据具有鲁棒性的分位数设定,而不是用极值设定
========(3)热力图矩阵块注释参数============
annot:指定一个bool类型的值或与data参数形状一样的数组,如果为True,就在热力图的每个单元上显示数值
fmt:指定单元格中数据的显示格式
annot_kws:有关单元格中数值标签的其他属性描述,如颜色、大小等
=========(4)热力图矩阵块之间间隔及间隔线参数==============
linewidths :指定每个单元格的边框宽度
linecolor:指定每个单元格的边框颜色
=========(5)热力图颜色刻度条参数==============
cbar:bool类型参数,是否用颜色条作为图例,默认为True
square:bool类型参数,是否使热力图的每个单元格为正方形,默认为False
cbar_kws:有关颜色条的其他属性描述
========(6)坐标轴=============
xticklabels,yticklabels:指定热力图x轴和y轴的刻度标签,如果为True,则分别以数据框的变量名和行名称作为刻度标签
mask:用于突出显示某些数据
ax:用于指定子图的位置
本算例来源于2022华夏杯大学生就业分析。
-
- '''=========导入相关库============='''
- import pandas as pd
- import seaborn as sns
- from matplotlib import pyplot as plt
- plt.rcParams['font.sans-serif']=['SimHei'] #图片显示中文
- plt.rcParams['axes.unicode_minus'] =False #减号unicode编码
-
- #=====读取数据和数据预处理=============
- shuju=pd.read_csv('数据.csv')
- print(shuju)
- shuju.isnull().sum() #看下有没有缺失值:
- print(shuju)
- shuju.describe() #查看数据描述
-
- #=======绘制热图===============
- plt.figure(figsize=(25,20))
- sns.heatmap(shuju.corr() , annot=True) #shuju.corr() :计算各变量之间的相关系数
- # 设置刻度字体大小
- plt.xticks(fontsize=9)
- plt.yticks(fontsize=9)
- plt.show()
相关性分析热力图(Python&Matlab代码实现)
下面这篇文章写得很棒,值得学习:
本题算例来源于2022华数杯比赛。
- '''======导入第三方库========'''
- import pandas as pd
- import seaborn as sns
- import matplotlib.pyplot as plt
- plt.rcParams['font.sans-serif'] = ['SimHei'] # 指定默认字体
- plt.rcParams['axes.unicode_minus'] = False # 解决保存图像是负号'-'显示为方块的问题,负号正常显示
-
- '''=======读取数据==========='''
- data=pd.read_csv('热图分析.csv', encoding='gbk')
- data.head()
-
- corr = data.corr() # shuju.corr() :计算各变量之间的相关系数,corr(method='pearson')默认方法选择person相关性,'spearman'秩相关。如果你想选择其它方法,请修改meathod参数。这里我们就用皮尔逊进行演示。
- '''=====热图可视化============'''
- plt.subplots(figsize=(9, 9)) # 设置画面大小
- # annot=True,是显式热力图上的数值;vmax是显示最大值;xticklabels、yticklabels轴标签显示;square=True,将图变成一个正方形,默认是一个矩形;cmap="Blues"是一种模式,就是图颜色配置。
- # mask:控制某个矩阵块是否显示出来,默认值是None,如果是布尔型的DataFrame,则将DataFrame里True的位置用白色覆盖掉
- sns.heatmap(corr, annot=True, vmax=1, vmin=0, xticklabels=True, yticklabels=True, square=True, cmap="YlGnBu",
- linewidths=0.05, linecolor='y') # mask=t < 0.8等价于mask=(t < 0.8)
- plt.title('变量相关系数 - 热图\n', fontsize=18) # 添加图表标题“变量相关系数 - 热图”,fontsize=18 字体大小 可省略
- plt.xticks(fontsize=12)
- plt.yticks(fontsize=12)
- plt.show()
这个博主总结得相当好,很有收获:
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。