赞
踩
使用Pearson相关分析时,需要考虑满足5个假设。
1. 两个变量都是连续变量。
2. 两个连续变量应当是配对的,即来源于同一个个体。
3. 两个连续变量之间存在线性关系,通常做散点图检验该假设。
4. 两个变量均没有明显的异常值。Pearson相关系数易受异常值影响。
5. 两个变量符合双变量正态分布。
2.1 两个连续变量之间存在线性关系
Pearson要求两个变量之间存在线性关系。要确定是否存在线性关系,需要查看两个变量的散点图。如果散点图大致呈一条直线,说明有线性关系。但是,如果不是一条直线(如一条曲线)则没有线性关系。下图给出了线性和非线性关系的例子。
计算Pearson相关系数时,应有类似于上述第一个散点图的线性关系。如果两变量间不存在线性关系,应考虑其他基于非线性关系的统计方法。
2.2 没有明显的异常值
异常值可能会对相关分析的结果造成很大影响。检验线性假设的散点图中,异常值的点很容易被识别出来。
如果异常值存在,应修改为正确值或进行变换去除,并在报告中指出。如不去除,也应在报告中指出。
2.3 两个变量符合双变量正态分布
大多数软件(如SPSS)仅仅支持单变量正态分布的检验,因而通常检验两变量是否均服从正态分布,从而视为服从双变量正态分布。但这样仍有一定可能犯错,R软件包mvnormtest中的mshapiro.test函数可以用于检验双变量正态分布。
如果两个变量符合正态分布,则可以计算Pearson相关系数。如果变量不符合正态分布,有三种选择:①对不符合正态分布的变量进行数据转换,生成新变量并对其检验这些假设;②采用非参检验,如计算Spearman相关系数;③由于Pearson相关系数对不符合正态分布的情况具有一定的抗性,因此仍可尝试计算Pearson相关系数。
3 计算Pearson相关系数
Pearson相关系数的计算公式如下:
Pearson相关系数取值范围在[-1,+1],负数代表负相关,正数代表正相关,0则代表不存在相关关系。相关系数越接近0,相关关系越弱;越接近-1或+1,相关关系越强。
4 研究问题时的假设
当研究问题入手时,应持怀疑而非肯定的态度。培根曾说:“如果一个人以种种肯定的立论开抬,他必将终止于各种怀疑;但如果他愿意抱着怀疑的态开始,那么他必将获得肯定的结论。这也是我们常常将“原假设”设定到与期望的结果相对的原因。
参考文献
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。