斯皮尔曼相关系数和皮尔逊相关系数选择:
        1.连续数据，正态分布，线性关系，使用pearson相关系数最为恰当，用spearman相关系数也可以，就是效率没有pearson相关系数高。
        2.上述三个条件均满足才能使用pearson相关系数，否则就用spearman相关系数。
        3.定序数据之间也只用spearman相关系数，不能用pearson相关系数。

注：（1）定序数据是指仅仅反映观测对象等级、顺序关系的数据，是由定序尺度计量形成的，表现为类别，可以进行排序，属于品质数据。
例如，对成绩进行排名后，对排名进行数学运算就没有意义了。定序数据最重要的意义代表了一组数据中的逻辑顺序。
（2）斯皮尔曼相关系数的适用条件比皮尔逊相关系数要广，只要数据满足单调关系（例如线性函数、指数函数、对数函数等）就能够使用。

二、相关系数

1.皮尔逊相关系数（Pearson correlation）

当两个变量都是正态连续变量，且两者之间呈线性关系时，则可以用Pearson来计算相关系数。取值范围[-1,1]。计算公式如下：

从形式上看即为概率论中所学的相关系数。

变量相关强度：

相关程度	极强相关	强相关	中等程度相关	弱相关	极弱相关或无相关
相关系数绝对值	0.8——1	0.6——0.8	0.4——0.6	0.2——0.4	0——0.2

1、线性检验

一般使用散点图进行线性检验：


import numpy as np
from matplotlib import pyplot as plt
 
 
def linear_test():
 
    #为显示线性关系手动输入的数据
    x = np.array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10])
    y = np.array([1, 1, 3, 4, 3, 6, 5, 7, 9, 8, 9])
 
    fig = plt.figure()
    ax1 = fig.add_subplot(1, 1, 1)
    ax1.set_title('Linear Test')
    ax1.set_xlabel('X')
    ax1.set_ylabel('Y')
    ax1.scatter(x, y, c='k', marker='.')
    plt.savefig('linear_test.png')
 
 
linear_test()

2、正态检验

这里运用到scipy模块的kstest方法，具体代码如下：


def normal_test():
 
    data = np.array([1, 2, 5, 4, 4, 6, 7, 3, 9, 5, 4, 7, 1, 2, 9])
    u = data.mean()
    std = data.std()
    result = stats.kstest(data, 'norm', (u, std))
    print(result)

结果：KstestResult(statistic=0.12726344134326134, pvalue=0.9427504251048978)

结果返回两个值：statistic → D值，pvalue → P值

H0:样本符合
H1:样本不符合
p值>0.05则接受H0，该数据为正态分布。

3、求相关系数

若以上验证均成功则采取皮尔逊相关系数进行相关性分析：


import pandas as pd
 
 
# 读取数据
df = pd.read_excel('spearman_data.xlsx')
df = pd.DataFrame(df)
# print(df)
 
# 生成相关性矩阵
rho = df.corr(method='pearson')
print(rho)

对生成的相关系数矩阵进行可视化操作（生成热力图）：


def heatmapplot():
 
    plt.rcParams['font.family'] = ['SimHei']
    plt.rcParams['axes.unicode_minus'] = False
    sns.heatmap(rho, annot=True)
    plt.title('Heat Map', fontsize=18)
    plt.savefig('heatmap1.png', dpi=300)

2、斯皮尔曼相关系数（Spearman correlation）

1、秩相关系数

秩相关系数（Coefficient of Rank Correlation），又称等级相关系数，反映的是两个随机变量的变化趋势方向和强度之间的关联，是将两个随机变量的样本值按数据的大小顺序排列位次，以各要素样本值的位次代替实际数据而求得的一种统计量。它是反映等级相关程度的统计分析指标，常用的等级相关分析方法有Spearman相关系数和Kendall秩相关系数等。主要用于数据分析。斯皮尔曼相关系数被定义成等级变量之间的皮尔逊相关系数。