赞
踩
上文说到:根据随机误差的概率大小,判断两个数据差异是随机误差,还是本质差异的方式,是统计学中的显著性检验本质。
先来解决第一个问题:显著性检验,如何计算随机误差的概率?
显著性检验,是根据一组数据的分布规律,来计算差异的随机性概率大小(即随机误差概率)。
因此,我们需要先了解数据的分布规律。
在生活中,大量数据通常呈现出对应的分布规律,我们之前学过的正态分布,则是非常普遍的数值分布规律。
(当然,还有其他分布,例如卡方分布、泊松分布等等,懒得讲了,一口吃不下一头大象)
如果数据服从正态分布,那么我们是可以通过数学公式,很快计算出数据的差异程度,再根据差异程度,计算出对应的随机误差概率。
因此,主要讲解的是数据服从正态分布
时的显著性检验。
但为什么数据服从正态分布,就能计算出差异程度和随机差异概率呢?
这就要从数据差异
和随机误差概率
与正态分布
,它们三者间剪不断扯还乱的统计伦理关系说起了。
果然,三个人的关系,永远是错综复杂的狗血伦理:无论爱情,还是统计学
如果一个数据集服从正态分布N(μ,σ),那么这个数据集里的数据分布图像就如下图所示:
均值μ表示正态分布的中间位置,标准差σ表示曲线的离散程度(胖瘦)。
大西格玛σ,矮胖散成沙;
小西格玛σ,高瘦聚成塔。
——《我可真会压俗辣辣的韵,切克闹,单押》
它对应的概率分布规律就是,数据大概率会落在均值μ的附近,越偏离均值μ,概率越小。
你看,只要
x
−
x^-
x−越偏离μ,那么随机落在
x
−
x^-
x−处的概率就会越来越小,这个概率可以叫做随机误差概率。
那么我们可以根据正态分布的概率密度函数,直接计算出$x^-$处的概率值
即可。
但实际在统计学计算与应用中,通常不是计算
x
−
x^-
x−处的概率值,而是计算积分值(即求面积)
说实话,我不知道为啥非要求积分,为什么不直接求值【it doesn’t matter】
求值,也可以像显著性水平α那样,另外设置判断界限呀!!!
不懂不懂,酸辣酸辣,还是按老规矩,算积分面积就好啦
所以,上图右侧区域的面积,即为统计学中的随机误差概率值。
并且,当μ和
x
−
x^-
x−的差异越大,随机误差概率越小。
因此,只要计算出μ和 x − x^- x−的偏差程度,我们就可以根据正态分布的概率密度函数,计算出随机误差概率了。
这就是它们三者的统计伦理关系:概率密度函数是大草原,差异是他,概率是她,她逃他追,她插翅难飞
这个比喻很奇怪,只是生搬硬凑的一部狗血伦理剧
不过,上图只是在演示右侧区间的概率值,实际是可以计算出左侧、双侧、右侧的概率。
左侧、右侧、双侧,它们的概率值,分别称为左侧 P 值、右侧 P 值、双侧 P 值。
。。。讲复杂了,完全没必要左侧、右侧的,直接双侧就可以覆盖两种情况了。。。。但是,话赶话都到这了。。。
在正态分布中,只要计算出两个均值的差异程度,就可以分别计算出对应的左侧、右侧、双侧概率(即随机误差概率)。
理解随机误差概率的计算原理后,现在解决第二个问题:显著性检验,如何判断随机误差的概率?
我们知道,判断的逻辑:只有当随机误差概率非常小的时候,才能认为差异是变量影响导致的!
那么,随机误差概率要多小,才能算非常小,才能算几乎不可能发生呢????
总不能是相当于被雷劈18次=中彩票500万大奖的概率那么小吧!
这就需要我们人为去设置概率 P 值的分界线,而这个界限通常称为显著性水平α。
在统计学应用中,通常将这个显著性水平α设置为0.05,这个α表示的是双侧区域的概率为0.05。
正态分布曲线下的面积,即为概率值。
显著性水平α所对应的界限范围内的中间区域,一般称为置信区间。
显著性水平α所对应的界限范围外的两侧区域,一般称为拒绝域。
P值小于显著性水平α
(即P值<0.05),说明P值落在拒绝域内,统计学上通常称为 差异显著。Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。