spearman相关性分析_做数据分析为何要学统计学（3）——相关性分析

作者：运维做开发 | 2024-08-07 03:52:26

踩

spearman相关性分析

相关性分析是量化不同因素间变动状况一致程度的重要指标。在样本数据降维(通过消元减少降低模型复杂度，提高模型泛化能力)、缺失值估计、异常值修正方面发挥着极其重要的作用，是机器学习样本数据预处理的核心工具。

样本因素之间相关程度的量化使用相关系数corr，这是一个取之在[-1，1]之间的数值型，corr的绝对值越大，不同因素之间的相关程度越高——负值表示负相关(因素的值呈反方向变化)，正值表示正相关(因素的值呈同方向变化)。

样本数据的相关系数计算有多种算法，最常用的是Pearson相关系数，还有Spearman相关系数和Kendall相关系数。当涉及相关性分析的因素的标准差为0时，Pearson相关系数就无法使用了，此时还可以考虑向量夹角余弦来衡量。

1.Pearson相关系数

相关系数是最早由统计学家卡尔·皮尔逊设计的统计指标，是研究变量之间线性相关程度的量。计算公式如下：

Numpy和Pandas都提供了Pearson相关系数的计算函数，分别为np.corrcoef()和Pandas.corr()，使用非常方便。如

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/运维做开发/article/detail/940814