赞
踩
统计学中的假设检验听起来很高端,其实只不过是披了层数学的皮,底层的思想非常简单,就是基本的逻辑推理的套路。
用福尔摩斯的话说,就是:一旦排除所有的不可能,剩下的不管多么难以置信,一定就是真相。
所以,从这个思路出发,假设检验的推理过程可以分成四步:
下面从一个简单的例子出发,来看看这个推理过程:
我们假设福尔摩斯接了一个案子,就是老李头觉得自己妻子可能出轨了(或许是隔壁老王),但是又不确定,想让福尔摩斯帮忙调查一下,于是福尔摩斯就通过假设检验,来证明老李的妻子有没有出轨。
问题:判断老李的妻子有没有出轨
根据这个问题,我们可以提出两个对立的假设,即:
零假设 H 0 H_0 H0 :老李的妻子出轨了
备择假设 H 1 H_1 H1 :老李的妻子没有出轨
这里为什么要提出两个假设呢?从逻辑学上来说,如果我们能够证明零假设不成立,那么其对立假设必然成立,用前面福尔摩斯的话就是,排除所有不可能,剩下的就一定是真相。
那么,接下来我们就要想办法去找证据,看看零假设到底成不成立。
通过中心极限定理,我们知道,合理且足够多的样本可以代表总体,于是福尔摩斯便出去寻找合理的样本数据来作为证据。
福尔摩斯去随机调查了老李妻子最近一段时间的样本数据,包括通话、出行、财务等等。
根据这些数据显示出来的证据,老李的妻子经常同隔壁老王通电话,手机中发现很多暧昧信息,并且在酒店发现了开房记录,通过统计学的知识,计算出,在零假设成立的前提下,这些证据出现的可能性只有0.01%。
这个概率值在统计上有个专门的术语叫做 p 值。也就是,在零假设成立的前提下,得到样本观测结果出现的概率。
这里 p 值就是在零假设成立的前提下(即老李妻子没有出轨),样本证据发生的概率 p = 0.01 % p = 0.01\% p=0.01%。
虽然说有了一定证据,但是也不能就直接判断老李妻子出轨了,这还得看老李头的心理承受能力,说不定我们认为老李妻子出轨了,但是老李头觉得还好,这个程度可以接受也说不定呢。
所以,福尔摩斯要跟老李头约定一个定罪标准,符合这个标准才判断老李妻子出轨了。
因为我们的零假设是:老李妻子没有出轨。在这个前提下,这里定的标准是:如果老李妻子没有出轨的概率 ≤ 5%(也可以说出轨的概率 ≥ 95%),那么就直接否定零假设,接收备择假设,认定老李妻子出轨了。
这里做出决策的标准 5%,在假设检验里叫做“显著性水平”,用符号 α \alpha α表示,是一个概率值。
图中,曲线 f 是某分布的密度函数。浅棕色部分是拒绝域,这个区域的面积大小是 α \alpha α。条状部分的面积是 p-value,这个面积的大小取决于实际值 x x x( x x x是根据实际数据计算得到的一个 test statistic 的实际值)。这个图里 x x x决定的条状面积小于浅棕色面积,也就是说 x x x对应的 p − v a l u e < α p-value < \alpha p−value<α,可以拒绝 H 0 H_0 H0。
那么,老李妻子到底有没有出轨呢?
我们将样本证据计算出的 p 值与判断标准 α \alpha α 比较下就可以了:
如果 p ≤ α p ≤ \alpha p≤α,那么拒绝零假设,接收备择假设;
如果 p > α p > \alpha p>α,那么零假设成立;
这里,在零假设成立的前提下,样本证据发生的概率( p = 0.01 % p = 0.01\% p=0.01%),远远小于我们定义的标准 α = 5 % \alpha = 5\% α=5%。
也就是说,本想零假设证明老李妻子没有出轨,但是样本数据给出的证据证明没有出轨的概率只有0.01%,远远小于老李头心理可接受的标准5%,那么,没办法,根据样本证据只能说老李被带绿帽子了。
下面,总结一下假设检验的思路:
科学家测试一种药物对生物反应时间的效果,分别对100只老鼠注射一单位剂量的药物,对其进行神经刺激,然后记录反应时间。已知没有注射药物的老鼠平均反应时间是1.2秒,100只注射了药物的老鼠平均反应时间是1.05秒,样本标准差是0.5秒,你认为该药物对反应时间有效果么?
分析:
根据前面说的假设检验的思路
(1)第 1 步,我们建立两个假设:
H
0
H_0
H0:药物对反应时间无影响;(即使使用了药物,反应时间仍是
μ
=
1.2
s
\mu = 1.2s
μ=1.2s)
H
1
H_1
H1:药物有效果;(使用药物后,反应时间
μ
=
̸
1.2
s
\mu = \not 1.2s
μ≠1.2s)
思路:假设零假设正确,我们得到这个样本的概率是多少呢?如果该样本发生的概率非常非常小,就可以认为零假设不对,于是拒绝零假设,选择备择假设。
(2)第 2 步,计算样本发生的概率:
现在我们假设零假设是正确的,然后求得到样本均值为1.05,标准差为0.5这一结果的概率。其实我们不止求出这个的概率,而是求出类似这个结果,甚至更极端情况的概率,看这样的情况发生的可能性有多大。
要得到这些,首先考虑抽样分布,对于样本容量为100的抽样样本,其分布为正态分布:
样本均值为:
μ
X
‾
=
μ
=
1.2
s
\mu_{\overline X} = \mu = 1.2s
μX=μ=1.2s
样本标准差为: σ X ‾ = σ 100 ≈ S 100 = 0.5 10 \sigma_{\overline X} = {\sigma \over \sqrt{100}} \approx {S \over \sqrt{100}} = {0.5 \over 10} σX=100 σ≈100 S=100.5
σ ^ X ‾ = 0.05 \hat \sigma_{\overline X} = 0.05 σ^X=0.05
然后就要考虑得到1.05s的概率是多少?或者说,1.05s离抽样分布均值有多少个标准差远,以及均值周围这么多标准差远之内的概率是多少?
首先求离均值多少个标准差远,这里其实就是求一个z分数,z分数也可以看成是z统计量,它是由其他样本统计量推出来的。
z = 1.05 − 1.2 0.05 = − 3 z = {1.05 - 1.2 \over 0.05} = -3 z=0.051.05−1.2=−3
因此1.05距离均值有3个标准差远,如下图所示:
那么得到这样的极端情况,概率有多大呢?
这样的极端情况是指比这个更小或者在负方向上更极端,超过3个标准差远,这种极端情况的概率也就是钟形曲线下方相应的面积,包括负尾部和正尾部两个部分,这个概率是多少呢?
根据经验法则,3个标准差内的概率是99.7%。
这样我们就可以得到:假设药物没有效果,得到这种极端情况或更极端情况的概率只有0.3%,发生这种情况的概率很小,因此这个结果更倾向于拒绝原假设,支持备择假设。
得到零假设中这种极端情况或者更极端情况的概率就是p值(p-value),p代表概率,这里的p值就是0.003。如果零假设成立,得到此结果的概率非常非常小,所以拒绝它。
(3)第 3 步,设定一个判断标准:
通常我们会设置一个门槛,比如门槛设为5%。
(4)第 4 步,做出结论:
如果p值小于5%,就拒绝原假设。
所以这是表明零假设不正确的强指标,这里说明药物是具有效果的。
这里备择假设只是说药物有效,但具体是降低还是增加反应时间却没有说,我么只是说,药物有一定效果,用药后的均值同原均值不一样,零假设表示用药前后没有差别,这里我们只是检验是否存在效果,不管正效果还是反效果都被认为是有效的,这被称作双侧检验。
类似地,我们也可以进行一个单侧检验:
H
0
H_0
H0:药物对反应时间无影响;(
μ
=
1.2
s
\mu = 1.2s
μ=1.2s)
H
1
H_1
H1:药物降低反应时间;(使用药物后,反应时间
μ
<
1.2
s
\mu < 1.2s
μ<1.2s)
改变备择假设后,就可以进行单侧检验:
现在我们关心的是低于 1.2 秒的概率,相当于从抽样分布中抽取的样本值比均值小超过3个标准差,这里相当于只考虑一个尾部的面积,所以这里称作单侧检验。
前面我们知道双侧尾部加起来是0.3%,这里只考虑左侧这部分,根据正态分布对称性,左侧的面积就是0.15%。
假设这样设置的话,如果零假设正确,得到 1.05 秒的概率只有0.15%,,这非常不可能发生,所以我们拒绝零假设,接受备择假设,这种情况下p值是0.0015。
如图,如果我们想要求出极端结果的概率,这就需要求出该值离均值有多少个标准差远,做法是用样本均值减去实际均值,然后除以抽样分布的标准差:
X
‾
−
μ
i
σ
X
‾
{\overline X - \mu_i \over \sigma_{\overline X}}
σXX−μi
但是这个标准差我们一般都不知道,中心极限定理告诉我们,样本容量充分时,这个标准差等于总体标准差除以样本容量的平方根,于是我们的公式可以改写为:
z
=
X
‾
−
μ
i
σ
n
z = {\overline X - \mu_i \over {\sigma \over \sqrt{n}}}
z=n
σX−μi
这就是对离均值有多少标准差远的最好度量了,这也就是我们之前讲的z分数。它由样本均值统计量推导出,所以又称为z统计量,由z统计量查z分数表就可以得到p值。
通常情况下,总体标准差
σ
\sigma
σ也是未知的,因此需要使用样本进行估计,于是我们说z统计量中的
σ
\sigma
σ改用样本标准差作为估计值:
z
≈
X
‾
−
μ
i
S
n
z \approx {\overline X - \mu_i \over {S \over \sqrt{n}}}
z≈n
SX−μi
这在样本容量n大于30时可行,可以认为n>30时,这将服从正态分布,甚至这个估计情况都是近似正态分布的。
但如果样本容量小于30,特别是比30小很多,此时就不服从正态分布了,此时服从t分布。t值的计算和前面一致,只是查表时查的是t分数表,而不是z分数表。
第一型错误就是说拒绝了正确的零假设,一般而言,假设检验从零假设成立出发,如果零假设成立,那么通常均值等于某个值,然后我们有一个统计量,来检验零假设是否成立,看得到这个统计量这样极端甚至更极端情况的概率,假设该统计量给我们的值在图中 α \alpha α的位置,然后根据这些我们发现可能只有1%的几率得到如此极端或更极端的结果,如果得到的概率低于某门槛,我们会拒绝该零假设。
假设我们的门槛是1%,得到极端甚至更极端情况的概率小于1%,也就是说零假设成立只有小于1%的几率,因此我们拒绝零假设。
比如令这个得到极端或更极端情况的区域面积是0.5%,根据零假设,统计量落在这里的概率非常低,所以我们决定拒绝零假设,这可以理解为拒绝零假设有0.5%的几率犯第一型错误,因为零假设仍然有0.5%的几率确实成立,所以拒绝它可能是个错误,犯错的概率是0.5%,这就是第一型错误。
根据新排放要求,引擎排放均值应低于百万分之20,10台引擎制造出来供测试使用,每一台的排放水平如下:15.6,16.2,22.5,20.5,16.4,19.4,16.6,17.9,12.7,13.9,假设我们愿意冒0.01概率犯第一型错误的风险,这些数据是否能支撑该型引擎满足新标准的结论。
分析:
首先,我们可以算出样本均值和标准差:
X
‾
=
17.17
\overline X = 17.17
X=17.17
S = 2.98 S=2.98 S=2.98
(1)第1步,先定义零假设和备择假设:
H
0
H_0
H0:不满足标准,即新引擎的均值正好是百万分之20,
μ
=
20
p
p
m
\mu=20ppm
μ=20ppm
H
1
H_1
H1:
μ
<
20
p
p
m
\mu < 20ppm
μ<20ppm
(2)第 2 步,计算样本发生的概率:
零假设前提下,如果样本均值得到17.17的概率小于1%,就拒绝零假设,此时得到第一型错误的概率小于1%,这里只有小于1%的几率拒绝正确的零假设。
然后我们要考虑用什么类型的分布,由于这里样本量很少,只有10个,t统计量可以由这些统计量得到:
t = 17.17 − 20 2.98 10 = − 3.0 t = {17.17 - 20 \over {2.98 \over \sqrt{10}}} = -3.0 t=10 2.9817.17−20=−3.0
其实这里不一定要算出样本发生的概率,有两种思路:
- 由统计量从z分数表 / t分数表中读出样本发生的概率,然后同判断标准(置信水平)进行比较;
- 通过置信水平求出拒绝区域,然后看z统计量 / t统计量是否落在拒绝域中;
(3)第 3 步,设定一个判断标准:
由题意可知,这里设置的判断标准是为1%。
(4)第 4 步,做出结论:
我们想知道,t统计量小于等于-3的概率是否小于1%,这就需要考虑t分布。
t统计量的分布是标准化的t分布,如下:
其中中间是t分布的均值,左侧有个界限t值,在这个t值以下的概率等于1%,即黄色区域面积是1%,我们要找到这个界限t值的位置,这里t统计量的自由度为9,通过t分数表,t值小于-2.821的概率是1%,而我们的t值是-3,小于-2.821,这显然进入了我们拒绝零假设的区域,所以我们可以相对可靠地拒绝零假设,接受备择假设,即满足排放标准,而且犯第一型错误的概率低于1%。
下面对同样的数据,我们算出95%的置信区间:
通过t分数表,我们可以读出95%的置信区间在-2.262到+2.262之间,所t统计量有95%的概率落在这个区间内:
−
2.262
<
t
<
2.262
-2.262 < t < 2.262
−2.262<t<2.262
− 2.262 < 17.17 − μ 2.98 10 < 2.262 -2.262 < {17.17 - \mu \over {2.98 \over \sqrt{10}}} < 2.262 −2.262<10 2.9817.17−μ<2.262
15.04 < μ < 19.3 15.04 < \mu < 19.3 15.04<μ<19.3
所以落在这个区间的几率是95%,就是说,实际均值也就是抽样分布的均值有95%的几率落在这个区间。
我们要检验一个假设,即超过30%的美国家庭拥有互联网接入的显著性水平为5%,我们采集了150个家庭作为样本,结果57家拥有接入。
分析:
(1)第 1 步,首先要设定零假设和备择假设:
H
0
:
H_0:
H0:美国家庭总体的互联网接入率小于等于30%;
H
1
:
H_1:
H1:备择假设要与检验的一致,即接入率大于30%,也就是超过30%的美国家庭拥有互联网接入;
(2)第 2 步,计算样本发生的概率:
对应这个,要检验的内容就是备择假设的内容,然后我们要根据零假设得到一个总体中的占比值p,在这个假设下,看样本中150户有57户接入互联网的概率是多少?如果该概率小于5%,小于我们的显著性水平,那么我们就能拒绝零假设,接受备择假设。
假设零假设是正确的,根据这个假设,我们可以得到一个总体均值 μ \mu μ,或者总体占比 p p p,伯努利分布中 μ = p \mu=p μ=p,需要尽可能让这种情况的概率最大。
通过计算我们知道样本占比为: p ‾ = 0.38 \overline p = 0.38 p=0.38
假设零假设成立,也就是假设总体占比p,使得到这个样本概率最大,零假设前提下,让这个概率最大的p其实就是30%,这是总体占比。
假设零假设成立,我们假设总体占比等于0.3,或者说30%,想想其实28%和29%也满足零假设,不过28%和29%让得到这个样本的概率更低,所以我们选择的占比值p既要满足零假设,同时又让得到这个样本的概率最大;如果得到这个样本的概率仍然低于5%,我们就能很好地接受备择假设了,所以这里假设总体占比为0.3。
基于这里的假设,总体分布如下:
这是个伯努利分布。
我们这里要求的是样本占比达到0.38的概率,先来看下样本占比的分布,得到的都会是二项分布,当n比较大的时候,如果 n p > 5 np > 5 np>5,而且 n ( 1 − p ) > 5 n(1-p) > 5 n(1−p)>5,则可以假定样本占比的分布为正态分布。
我们可以从总体中抽出150个家庭作为样本,得到所有这些条形,但由于n很大, n p np np和 n ( 1 − p ) n(1-p) n(1−p)显然大于5,因此可以将其近似看做正态分布,所以这里用正态分布来近似。
正态分布的均值也就是样本占比的均值,等于总体均值,所以这里
μ
p
‾
=
0.3
\mu_{\overline p} = 0.3
μp=0.3,而标准差可以根据中心极限定理来求:
σ
p
‾
=
σ
H
0
150
=
0.21
150
=
0.037
\sigma_{\overline p} = {\sigma_{H_0} \over \sqrt{150}} = {\sqrt{0.21} \over \sqrt{150}} = 0.037
σp=150
σH0=150
0.21
=0.037
要求样本占比得到0.38的概率,我们需要求出0.38离均值有多少个标准差远,也就是计算z统计量,或者说是z分数,z分数表示离均值有多少个标准差远,然后看得到此z统计量的概率是多于还是少于5%。
首先求离均值有多少个标准差远:
这样的话,样本占比可以看成是该分布的一个可能样本值,那么,它离均值有多少个标准差远呢?
z = p ‾ − μ p ‾ σ p ‾ = 0.38 − 0.3 0.037 = 2.14 z = {\overline p - \mu_{\overline p} \over \sigma_{\overline p}} = {0.38 - 0.3 \over 0.037} = 2.14 z=σpp−μp=0.0370.38−0.3=2.14
(3)第 3 步,设定一个判断标准:
这里我们关心的是单侧,得到这个z统计量的概率是大于还是小于5%,如果小于5%,我们将拒绝零假设,接受备择假设。
这里考虑标准化的正态分布,也可以称之为z分布,一个完全标准化的正态分布,这里每个值都是z分数,我们需要找到临界z值,z值高于此值的概率等于5%,则右侧面积为5%,5%也就是我们的显著性水平,如果z值落在这个范围内,我们就会拒绝零假设。
(4)第 4 步,做出结论:
如上图,右侧为5%,则左侧就是95%,在z分数表中找到95%对应的z值,这里临界z值是1.65,也就是说均值右侧1.65个标准差以内的概率是95%,实际样本中的z值或者说z统计量是2.14,这里对应的概率显然小于5%,我们甚至可以求出这么极端甚至更极端情况的概率,即可以用z分数表读出这个区域的面积,求出该结果的p值,由于这个值比临界值更极端,所以我们拒绝零假设,接受备择假设。
设X和Y是相互独立的随机变量,并且:
Z
=
X
+
Y
Z = X + Y
Z=X+Y
A = X − Y A = X - Y A=X−Y
则随机变量之差的期望和方差如下:
E ( Z ) = E ( X ) + E ( Y ) μ z = μ x + μ y E(Z) = E(X) + E(Y) \quad \mu_z =\mu_x + \mu_y E(Z)=E(X)+E(Y)μz=μx+μy
E ( A ) = E ( X ) − E ( Y ) μ A = μ x − μ y E(A) = E(X) - E(Y) \quad \mu_A =\mu_x - \mu_y E(A)=E(X)−E(Y)μA=μx−μy
σ Z 2 = σ X + Y 2 = σ X 2 + σ Y 2 \sigma_Z^2 = \sigma^2_{X+Y} = \sigma^2_X + \sigma^2_Y σZ2=σX+Y2=σX2+σY2
σ A 2 = σ X − Y 2 = σ X 2 + σ Y 2 \sigma_A^2 = \sigma^2_{X-Y} = \sigma^2_X + \sigma^2_Y σA2=σX−Y2=σX2+σY2
后面比较两个分布的差异时,需要用到这几个公式。
假设我们有两个随机变量X和Y,其分布不一定要是图中的正态分布,其中均值和方差如图所示:
接下来,得到X和Y的样本均值的抽样分布,样本容量分别是n和m,假设n和m是很大的数字,由中心极限定理,这里的抽样分布接近于正态分布,见上图。
由中心极限定理,抽样分布的方差应该比原分布小很多,因此图像更狭窄,其均值等于随机变量的总体均值,方差等于总体方差除以样本容量n。
这里我们要定义一个新的随机变量,记做Z, Z = X ‾ − Y ‾ Z = \overline X - \overline Y Z=X−Y。要得到样本均值,就要从总体中取n个样本值,然后对n个样本值求均值,样本均值是一个随机变量,X和Y的两个分布都可以得到抽样分布的样本值。
Z是一个随机变量,从X的总体中取n个样本求均值,从Y的总体中取m个样本求均值,然后再求出两均值之差,这就是随机变量Z,那么Z的分布是什么样的呢?
两随机变量之差的方差等于两随机变量方差之和,均值等于两随机变量的均值之差,Z的分布是另外一个正态分布。由于其方差等于两方差之和,故正态分布曲线会变得更宽,见上图。然后我们可以得到:
μ
X
‾
−
Y
‾
=
μ
X
‾
−
μ
Y
‾
\mu_{\overline X - \overline Y} = \mu_{\overline X} - \mu_{\overline Y}
μX−Y=μX−μY
σ X ‾ − Y ‾ 2 = σ X ‾ 2 + σ Y ‾ 2 = σ X 2 n + σ Y 2 m \sigma^2_{\overline X - \overline Y} = \sigma^2_{\overline X} + \sigma^2_{\overline Y} = {\sigma^2_{X} \over n} + {\sigma^2_{Y} \over m} σX−Y2=σX2+σY2=nσX2+mσY2
做这些的目的:
为了以后将其运用到推论统计中,有多大可能两样本均值之差落在某一区间内,或均值之差的置信区间是多少?用于判断两个分布是否存在显著性差异。
我们想检验一种新低脂节食方式能否帮助人们减肥,100个随机抽取的人采用低脂节食,另100个随机抽取的肥胖者作为对照,采用非低脂的普通节食方法,少吃几乎等量的食物。
第二组是普通节食的对照组,而第一组是低脂节食组,四个月后,第一组的体重减轻均值为9.31磅,样本标准差为4.67磅,第二组样本均值是7.40磅,样本标准差是4.04磅。
表面上看,低脂组比对照组体重减轻更多,我们可以用低脂组的均值减去对照组的均值,得到1.91,我们要从统计上,得到这个数周围一个95%置信区间,看这个95%置信区间内,我们是否总能减轻更多体重。
分析:
如图所示为随机变量之差的分布,我们希望对此进行推断。根据我们的样本,我们希望构建一个置信区间,我们相信有95%的几率这个差的实际均值落在该区间内,或者也可以反过来想,如何构建一个区间,让我们有95%的信心相信任意来自此分布的样本值有95%的几率来自这个区域。那么两个方向上分别是多少个标准差远呢?这就需要查阅z表格。
如图所示,中间是95%,那么两侧分别是2.5%,从z表格中求出临界z值,我们可以得到z值为1.96,也就是说,分布中只有2.5%的值在离均值右侧1.96个标准差以外,所以可以知道:有95%的几率,作为另外两个样本均值之差的样本值1.91落在均值左右1.96个标准差内,这可以看成这个统计量的标准误差。一句话总结,有95%的几率,这个样本统计量1.91落在分布实际均值左右1.96个标准差内,即:有95%的几率分布的实际均值落在1.91左右1.96个分布标准差内,然后求出这个区间就可以了。所以:
σ X ‾ 1 − X ‾ 2 2 = σ X ‾ 1 2 + σ X ‾ 2 2 = σ X 1 2 100 + σ X 2 2 100 = S 1 2 100 + S 2 2 100 \sigma^2_{\overline X_1 - \overline X_2} = \sigma^2_{\overline X_1} + \sigma^2_{\overline X_2} = {\sigma^2_{X_1} \over 100} + {\sigma^2_{X_2} \over 100} = {S^2_1 \over 100} + {S^2_2 \over 100} σX1−X22=σX12+σX22=100σX12+100σX22=100S12+100S22
σ X ‾ 1 − X ‾ 2 = 0.617 \sigma_{\overline X_1 - \overline X_2} = 0.617 σX1−X2=0.617
1.96 ∗ σ X ‾ 1 − X ‾ 2 = 1.21 1.96 * \sigma_{\overline X_1 - \overline X_2} = 1.21 1.96∗σX1−X2=1.21
下面就可以算出置信区间: 1.91 ± 1.21 1.91±1.21 1.91±1.21,得到置信区间[0.7, 3.12]。
所以,可以说,我们相信有95%的几率样本均值之差的实际期望值落在0.7到3.12范围内,这个置信区间也就是总体期望值之差的置信区间。
μ X ‾ − Y ‾ = μ X ‾ − μ Y ‾ = μ 1 − μ 2 \mu_{\overline X - \overline Y} = \mu_{\overline X} - \mu_{\overline Y} = \mu_1 - \mu_2 μX−Y=μX−μY=μ1−μ2
这是低脂节食同非低脂节食减肥效果的真实差异值,这里我们得到95%置信区间,该差异值在0.7到3.12磅之内,所以说,低脂节食相对于非低脂节食减肥可以多减0.7到3.12磅。
这里还是用前面的例子,用假设检验来检验这些数据能否让我们相信低脂节食有效。
首先,还是设定零假设和备择假设:
H
0
:
H_0:
H0:低脂节食没有作用,即:
μ
1
−
μ
2
=
0
⇒
μ
X
‾
1
−
μ
X
‾
2
=
0
⇒
μ
X
‾
1
−
X
‾
2
=
0
\mu_1 - \mu_2 = 0 \Rightarrow \mu_{\overline X_1} - \mu_{\overline X_2} = 0 \Rightarrow \mu_{\overline X_1 - \overline X_2} = 0
μ1−μ2=0⇒μX1−μX2=0⇒μX1−X2=0
H
1
:
H_1:
H1:低脂节食有效,即:
μ
1
−
μ
2
>
0
⇒
μ
X
‾
1
−
X
‾
2
>
0
\mu_1 - \mu_2 > 0 \Rightarrow \mu_{\overline X_1 - \overline X_2} > 0
μ1−μ2>0⇒μX1−X2>0
这里我们设置显著性水平
α
=
5
%
\alpha = 5\%
α=5%。
这样的话,对于图中的正态分布,我们要找到一个临界值,使得超出此值的概率只有5%。假设有一个标准正态分布,求出临界z值,从z分数表中可以读出该值为1.65,由于
σ
X
‾
1
−
X
‾
2
=
0.617
\sigma_{\overline X_1 - \overline X_2} = 0.617
σX1−X2=0.617,所以临界值到均值的距离为
1.65
∗
0.617
=
1.02
1.65 * 0.617 = 1.02
1.65∗0.617=1.02。
也就是说,如果假设低脂节食毫无改善,两个样本均值之差超过1.02的概率只有5%(意味着低脂节食无效的话,两分布基本不会有太大差异),而实际我们得到的差值是1.91,这显然落在1.02之外。故:零假设前提下,得到这个样本的概率小于5%,这里的概率水平比显著性水平要低,所有拒绝零假设,接受备择假设。
假设选举临近,我们想知道男性和女性中投给某候选人的占比是否有显著不同,看一下总体分布,如下:
我们希望得到一个95%的置信区间。
首先,看一下样本占比(样本均值)的抽样分布:
接下来看一下该差值的抽样分布:
我们希望有95%的几率,实际均值
p
1
−
p
2
p_1 - p_2
p1−p2落在这个样本差值0.051左右某距离d的范围内,因此我们的置信区间也就是从-d到+d。
对于标准正态分布,我们可以查z表格,因为抽样分布中的样本容量n很大,所以服从正态分布,那么正态分布均值多少个标准差内包含95%概率呢?通过z表格的累计概率可以得到,我们要求的z值尾部为2.5%,z表格的累计概率为97.5%,对应于1.96个标准差,所以说z分数为1.96,把它用到抽样分布的正态分布中,距离d就是1.96乘以分布的标准差:
σ p 1 − p 2 = 0.022 \sigma_{p_1 - p_2} = 0.022 σp1−p2=0.022
d = 1.96 ∗ σ p 1 − p 2 = 0.043 d = 1.96 * \sigma_{p_1 - p_2} = 0.043 d=1.96∗σp1−p2=0.043
所以,置信区间为[0.008, 0.094]。
对上面的例子做假设检验:试图了解投给某个候选人的男性占比同女性占比之间是否有显著不同。
首先,定义零假设和备择假设:
H
0
:
H_0:
H0:男女投票占比无差别,
p
1
=
p
2
,
即
p
1
−
p
2
=
0
p_1 = p_2,即 p_1 - p_2 = 0
p1=p2,即p1−p2=0
H
1
:
H_1:
H1:男女投票占比存在差异,
p
1
=
̸
p
2
,
即
p
1
−
p
2
=
̸
0
p_1 = \not p_2,即 p_1 - p_2 = \not 0
p1≠p2,即p1−p2≠0
我们将使用5%的显著性水平来进行假设检验。
假设 H 0 H_0 H0成立,如果得到 p ( p ‾ 1 − p ‾ 2 ∣ H 0 ) < 5 % p(\overline p_1 - \overline p_2 | H_0) < 5\% p(p1−p2∣H0)<5%,我们将拒绝零假设。
假设 H 0 H_0 H0成立,则 p 1 − p 2 = 0 p_1 - p_2 = 0 p1−p2=0,可以得到:
z = 0.051 − 0 σ p ‾ 1 − p ‾ 2 z = {0.051 - 0 \over \sigma_{\overline p_1 - \overline p_2}} z=σp1−p20.051−0
由于 p 1 = p 2 = p p_1 = p_2 = p p1=p2=p,故: σ p ‾ 1 − p ‾ 2 = 2 p ( 1 − p ) 1000 \sigma_{\overline p_1 - \overline p_2} = \sqrt{2p(1-p) \over 1000} σp1−p2=10002p(1−p)
将男女看成一个整体可以求出 p = 0.6165 p = 0.6165 p=0.6165,故 σ p ‾ 1 − p ‾ 2 = 0.0217 \sigma_{\overline p_1 - \overline p_2} = 0.0217 σp1−p2=0.0217。
z = 0.051 − 0 0.0217 = 2.35 z = {0.051 - 0 \over 0.0217} = 2.35 z=0.02170.051−0=2.35
所以说0.051在均值0以外2.35个标准差远的地方。
如果要拒绝零假设,下面我们来求能拒绝零假设的最小z分数:
对于5%的显著性水平,累计分布为97.5%,查表得到临界z值为1.96,由于零假设前提下,从z统计量中抽取的样本值2.35大于1.96,故可以拒绝零假设。
参考文献:
[1] 知乎:假设检验的逻辑是是什么?
[2] 可汗学院 统计
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。