赞
踩
从知乎上比较好的回答中可以总结出,
假设检验的基本逻辑是:
结合这两点,我们设置一个随机变量的区域,这个区域是偏离原假设的,并且发生在这个区域的概率很小,如果实际观察到的值还是出现在这个不太可能出现的范围内,则我们可以拒绝原假设
其中,区域对应的是临界值,发生在这个临界区间的概率称为显著性水平。
有两种方法可以决定是否拒绝原假设:
给定发生偏离原假设极端情况的概率(即显著性水平
α
\alpha
α),可以计算得到对应的临界值(参考下图,偏离原假设的阴影部分面积表示显著性水平,对应的坐标表示临界值)。
若观察值在临界值范围内,表示出现这种现象是正常的,则可以接受原假设;若观察值超过临界值范围,,则表示在原假设下出现了不太可能的现象,则我们拒绝原假设
给定发生偏离原假设极端情况的概率,计算出现观察值以及比观察值还要偏离原假设的概率(这就是p值),若 p > α p>\alpha p>α,则表示观察值在临界值范围内,可以接受原假设(图1);若 p < α p < \alpha p<α,则表示观察值在临界值范围之外,拒绝原假设(如图2)
还是以射箭的例子来解释假设检验的一些基本概念:
零假设(null hypothesis):说白了就是你想证伪的假设,在射箭的例子里,就是我在吹牛皮,我的平均水平不是8环,记为 H 0 : μ = 8 H_0: \mu = 8 H0:μ=8
备择假设:是一种与原假设相反的关于总体的断言,在射箭的例子里,可能的备择假设有:
H 1 : μ ≠ 8 H_1:\mu \neq 8 H1:μ=8(即平均水平不是8环,对应双尾检验)
H 1 : μ > 8 H_1:\mu > 8 H1:μ>8(即平均水平大于8环,你还谦虚了,对应右尾检验)
H 1 : μ < 8 H_1:\mu < 8 H1:μ<8(即平均水平小于8环,你在吹牛,对应左尾检验)
从里面选择一个作为备择假设,一般来说,我们将希望证伪的假设作为原假设,希望予以支持的作为备择假设。所以,这里,我们选择你在吹牛作为备择假设,即 H 1 : μ < 8 H_1:\mu < 8 H1:μ<8
假设检验分为三种
Anderson-Darling
和单样本Kolmogorov-Smirnov
,用于检验样本数据是否来自具体特定分布的总体z
检验和单样本t
检验,用于检验样本数据是否来自具有特定均值或中值的总体卡方
检验,用于检验样本数据是否来自具有特定方差的总体方差分析又称为 F F F检验,是一种判定方差在类间和类内是否(明显)具有区别的一种方法。如果类内差异相对于类间差异较小,则可以推断出类与类之间是有明显差异的。
F
F
F检验的零假设为所有类的均值都相等
,备择假设是所有类的均值不全相等(即至少有一个类的均值与其他具有显著差异)
ANOVA的核心思想可以用一句话总结:“所有样本的总差异可以分解为类间差异和类内差异”。
∑ i ∑ j ( y i j − y ˉ ) 2 ⏟ S S T = ∑ j n j ( y ˉ j − y ˉ ) 2 ⏟ S S R + ∑ i ∑ j ( y i j − y ˉ j ) 2 ⏟ S S E \underbrace{\sum_{i}\sum_{j}(y_{ij}-\bar y)^2}_{SST} = \underbrace{\sum_j n_j(\bar y_j - \bar y)^2}_{SSR} + \underbrace{\sum_i \sum_j (y_{ij} - \bar y_j)^2}_{SSE} SST i∑j∑(yij−yˉ)2=SSR j∑nj(yˉj−yˉ)2+SSE i∑j∑(yij−yˉj)2
设总样本数为 N N N,类别数为 k k k( k ≥ 2 k \ge 2 k≥2),则
MSR和MSE的比值,就是 F F F统计量。理论证明,当 H 0 H_0 H0成立时, F F F统计量服从对应自由度分别为 k − 1 , N − k k-1,N-k k−1,N−k的 F F F分布, F F F值越接近1,就越没有理由拒绝 H 0 H_0 H0,反之, F F F值越大,拒绝 H 0 H_0 H0的理由就越充分
F = S S R k − 1 S S E N − k = M S R M S E ∼ F k − 1 , N − k F = \frac{\frac{SSR}{k-1}}{\frac{SSE}{N-k}} = \frac{MSR}{MSE} \sim F_{k-1, N-k} F=N−kSSEk−1SSR=MSEMSR∼Fk−1,N−k
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。