当前位置:   article > 正文

相关性分析热力图(Python&Matlab代码实现)_相关性热力图

相关性热力图

目录

1 热力图

1.1 简介

1.2 语法

 2 算例1(Python代码实现)

2.1 算例

2.2 Python代码

2.3 运行结果

 3 算例2(Python代码实现)

4 算例3(Python代码实现)

4.1 算例

4.2 Python代码

4.3 运行结果

5 相关性分析(皮尔逊,肯德尔,斯皮尔曼) (Matlab代码实现)


1 热力图

1.1 简介

利用热力图可以看数据表里多个特征两两的相似度。

seaborn.heatmap()热力图,常用于展示一组变量的相关系数矩阵,列联表的数据分布,通过热力图我们可以直观地看到所给数值大小的差异状况。

热力图,又名相关系数图。根据热力图中不同方块颜色对应的相关系数的大小,可以判断出变量之间相关性的大小。两个变量之间相关系数的计算公式为:

 公式中,ρ 表示相关系数,Cov表示协方差,E表示数学期望/均值

值得注意的是,该相关系数只能度量出变量之间的线性相关关系;也就是说,相关系数越高,则变量间的线性相关程度越高。对于相关系数小的两个变量,只能说明变量间的线性相关程度弱,但不能说明变量之间不存在其它的相关关系,如曲线关系等。
 

1.2 语法

seaborn.heatmap(data, *, vmin=None, vmax=None, cmap=None, center=None, robust=False, annot=None, fmt='.2g', annot_kws=None, linewidths=0, linecolor='white', cbar=True, cbar_kws=None, cbar_ax=None, square=False, xticklabels='auto', yticklabels='auto', mask=None, ax=None, **kwargs)

========(1)热力图输入数据参数=======

data:指定绘制热力图的数据集,根据data传入的值画出热力图,一般是二维矩阵

========(2)热力图矩阵块颜色参数=======

vmin,vmax:用于指定图例中最小值与最大值的显示值

cmap:指定一个colormap对象,用于热力图的填充色

center:指定颜色中心值,通过该参数可以调整热力图的颜色深浅

robust:默认取值False;如果是False,且没设定vmin和vmax的值,热力图的颜色映射范围根据具有鲁棒性的分位数设定,而不是用极值设定

========(3)热力图矩阵块注释参数============

annot:指定一个bool类型的值或与data参数形状一样的数组,如果为True,就在热力图的每个单元上显示数值

fmt:指定单元格中数据的显示格式

annot_kws:有关单元格中数值标签的其他属性描述,如颜色、大小等

=========(4)热力图矩阵块之间间隔及间隔线参数==============

linewidths :指定每个单元格的边框宽度

linecolor:指定每个单元格的边框颜色

=========(5)热力图颜色刻度条参数==============

cbar:bool类型参数,是否用颜色条作为图例,默认为True

square:bool类型参数,是否使热力图的每个单元格为正方形,默认为False

cbar_kws:有关颜色条的其他属性描述

========(6)坐标轴=============

xticklabels,yticklabels:指定热力图x轴和y轴的刻度标签,如果为True,则分别以数据框的变量名和行名称作为刻度标签

mask:用于突出显示某些数据

ax:用于指定子图的位置

 2 算例1(Python代码实现)

2.1 算例

本算例来源于2022华夏杯大学生就业分析。

2.2 Python代码

  1. '''=========导入相关库============='''
  2. import pandas as pd
  3. import seaborn as sns
  4. from matplotlib import pyplot as plt
  5. plt.rcParams['font.sans-serif']=['SimHei'] #图片显示中文
  6. plt.rcParams['axes.unicode_minus'] =False #减号unicode编码
  7. #=====读取数据和数据预处理=============
  8. shuju=pd.read_csv('数据.csv')
  9. print(shuju)
  10. shuju.isnull().sum() #看下有没有缺失值:
  11. print(shuju)
  12. shuju.describe() #查看数据描述
  13. #=======绘制热图===============
  14. plt.figure(figsize=(25,20))
  15. sns.heatmap(shuju.corr() , annot=True) #shuju.corr() :计算各变量之间的相关系数
  16. # 设置刻度字体大小
  17. plt.xticks(fontsize=9)
  18. plt.yticks(fontsize=9)
  19. plt.show()

2.3 运行结果

相关性分析热力图(Python&Matlab代码实现)

 3 算例2(Python代码实现)

下面这篇文章写得很棒,值得学习:

数据可视化之热力图&相关系数图(原理+Python代码)

4 算例3(Python代码实现)

4.1 算例

本题算例来源于2022华数杯比赛。

4.2 Python代码

  1. '''======导入第三方库========'''
  2. import pandas as pd
  3. import seaborn as sns
  4. import matplotlib.pyplot as plt
  5. plt.rcParams['font.sans-serif'] = ['SimHei'] # 指定默认字体
  6. plt.rcParams['axes.unicode_minus'] = False # 解决保存图像是负号'-'显示为方块的问题,负号正常显示
  7. '''=======读取数据==========='''
  8. data=pd.read_csv('热图分析.csv', encoding='gbk')
  9. data.head()
  10. corr = data.corr() # shuju.corr() :计算各变量之间的相关系数,corr(method='pearson')默认方法选择person相关性,'spearman'秩相关。如果你想选择其它方法,请修改meathod参数。这里我们就用皮尔逊进行演示。
  11. '''=====热图可视化============'''
  12. plt.subplots(figsize=(9, 9)) # 设置画面大小
  13. # annot=True,是显式热力图上的数值;vmax是显示最大值;xticklabels、yticklabels轴标签显示;square=True,将图变成一个正方形,默认是一个矩形;cmap="Blues"是一种模式,就是图颜色配置。
  14. # mask:控制某个矩阵块是否显示出来,默认值是None,如果是布尔型的DataFrame,则将DataFrame里True的位置用白色覆盖掉
  15. sns.heatmap(corr, annot=True, vmax=1, vmin=0, xticklabels=True, yticklabels=True, square=True, cmap="YlGnBu",
  16. linewidths=0.05, linecolor='y') # mask=t < 0.8等价于mask=(t < 0.8)
  17. plt.title('变量相关系数 - 热图\n', fontsize=18) # 添加图表标题“变量相关系数 - 热图”,fontsize=18 字体大小 可省略
  18. plt.xticks(fontsize=12)
  19. plt.yticks(fontsize=12)
  20. plt.show()

4.3 运行结果

5 相关性分析(皮尔逊,肯德尔,斯皮尔曼) (Matlab代码实现)

这个博主总结得相当好,很有收获:

matlab相关性分析(皮尔逊,肯德尔,斯皮尔曼)

 

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/菜鸟追梦旅行/article/detail/675267
推荐阅读
相关标签
  

闽ICP备14008679号