当前位置:   article > 正文

假设检验-显著性检验原理(二)_假设检验显著性

假设检验显著性

上文说到:根据随机误差的概率大小,判断两个数据差异是随机误差,还是本质差异的方式,是统计学中的显著性检验本质。

显著性检验的核心问题

显著性检验,是如何计算随机误差的概率?又如何判断概率大小的呢?

先来解决第一个问题:显著性检验,如何计算随机误差的概率?

一、显著性检验原理_如何计算随机误差的概率

显著性检验,是根据一组数据的分布规律,来计算差异的随机性概率大小(即随机误差概率)。

因此,我们需要先了解数据的分布规律。

1. 数据分布规律——正态分布

在生活中,大量数据通常呈现出对应的分布规律,我们之前学过的正态分布,则是非常普遍的数值分布规律。

(当然,还有其他分布,例如卡方分布、泊松分布等等,懒得讲了,一口吃不下一头大象)

如果数据服从正态分布,那么我们是可以通过数学公式,很快计算出数据的差异程度,再根据差异程度,计算出对应的随机误差概率
在这里插入图片描述
因此,主要讲解的是数据服从正态分布时的显著性检验。

但为什么数据服从正态分布,就能计算出差异程度和随机差异概率呢?

这就要从数据差异随机误差概率正态分布,它们三者间剪不断扯还乱的统计伦理关系说起了。

果然,三个人的关系,永远是错综复杂的狗血伦理:无论爱情,还是统计学

2.数据差异、随机误差概率、正态分布的关系

如果一个数据集服从正态分布N(μ,σ),那么这个数据集里的数据分布图像就如下图所示:
(插图)
均值μ表示正态分布的中间位置,标准差σ表示曲线的离散程度(胖瘦)。

大西格玛σ,矮胖散成沙;
小西格玛σ,高瘦聚成塔。
——《我可真会压俗辣辣的韵,切克闹,单押》

它对应的概率分布规律就是,数据大概率会落在均值μ的附近,越偏离均值μ,概率越小。
在这里插入图片描述
你看,只要 x − x^- x越偏离μ,那么随机落在 x − x^- x处的概率就会越来越小,这个概率可以叫做随机误差概率。

那么我们可以根据正态分布的概率密度函数,直接计算出$x^-$处的概率值即可。
在这里插入图片描述
但实际在统计学计算与应用中,通常不是计算 x − x^- x处的概率值,而是计算积分值(即求面积)

说实话,我不知道为啥非要求积分,为什么不直接求值【it doesn’t matter】
求值,也可以像显著性水平α那样,另外设置判断界限呀!!!
不懂不懂,酸辣酸辣,还是按老规矩,算积分面积就好啦

在这里插入图片描述
所以,上图右侧区域的面积,即为统计学中的随机误差概率值。

并且,当μ和 x − x^- x的差异越大,随机误差概率越小。
在这里插入图片描述

因此,只要计算出μ和 x − x^- x的偏差程度,我们就可以根据正态分布的概率密度函数,计算出随机误差概率了。

这就是它们三者的统计伦理关系:概率密度函数是大草原,差异是他,概率是她,她逃他追,她插翅难飞
这个比喻很奇怪,只是生搬硬凑的一部狗血伦理剧

不过,上图只是在演示右侧区间的概率值,实际是可以计算出左侧、双侧、右侧的概率。
左侧、右侧、双侧,它们的概率值,分别称为左侧 P 值右侧 P 值双侧 P 值
在这里插入图片描述

。。。讲复杂了,完全没必要左侧、右侧的,直接双侧就可以覆盖两种情况了。。。。但是,话赶话都到这了。。。

在正态分布中,只要计算出两个均值的差异程度,就可以分别计算出对应的左侧、右侧、双侧概率(即随机误差概率)。

理解随机误差概率的计算原理后,现在解决第二个问题:显著性检验,如何判断随机误差的概率?

二、显著性检验原理_如何判断随机误差的概率

我们知道,判断的逻辑:只有当随机误差概率非常小的时候,才能认为差异是变量影响导致的!
在这里插入图片描述
那么,随机误差概率要多小,才能算非常小,才能算几乎不可能发生呢????

总不能是相当于被雷劈18次=中彩票500万大奖的概率那么小吧!

这就需要我们人为去设置概率 P 值的分界线,而这个界限通常称为显著性水平α。

在统计学应用中,通常将这个显著性水平α设置为0.05,这个α表示的是双侧区域的概率为0.05

正态分布曲线下的面积,即为概率值。
显著性水平α所对应的界限范围内的中间区域,一般称为置信区间
显著性水平α所对应的界限范围外的两侧区域,一般称为拒绝域
(插图)

  • 如果计算出的P值小于显著性水平α(即P值<0.05),说明P值落在拒绝域内,统计学上通常称为 差异显著
    声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/菜鸟追梦旅行/article/detail/265728
推荐阅读
相关标签