赞
踩
↑↑点击上图进入数分训练营↑↑
假设检验简单来说,就是下面4步的推理逻辑:
为了你更容易理解,我还是从一个生活中的例子开始聊起。
这个例子里举王宝强和马蓉的例子并没有恶意,只是想说明假设检验的背后逻辑,而这个例子更容易让你理解清楚。
有一天,宝强怀疑妻子有可能出轨,但是自己逻辑能力太弱,于是就请了我这个侦探来帮他破案。
于是,我就拿出了自己的杀手锏武器,也就是破案的套路:假设检验。
第1步,我需要明确问题是什么。
问题:宝强要检验马蓉是否出轨
根据这个问题我提出来下面两个互为相反的假设。
零假设:马蓉没有出轨
备选假设:马蓉出轨了
为什么要提出两个假设呢?
因为从逻辑学来看,如果我们能够证明某个零假设不成立,那么其对立假设(也就是备选假设)肯定为真。
零假设和对立假设在逻辑方面是互补的,也就是说,如果其中一个假设为真,则另一个假设为假;如果我们推翻了其中一个假设,那就必须承认另一个假设。
对应这个例子里,如果我能找到足够强的证据来否定零假设(也就是马蓉没有出轨),那么我就能有效的说明零假设不成立,那么备选假设成立。
好了,接下来的问题就是:如何找到证据了。下面图片我们看下第2步
第2步:证据是什么?
根据中心极限定理,我们知道,合理足够多的样本可以代表总体。所以我要找到马蓉合理的样本数据来做证据。
接下来,我随机调查了马蓉这几年的样本数据,包括上网,开房,财务等。
根据这些样本数据显示出来的证据,我利用自己的统计概率知识,计算出了,在零假设成立的前提下,马蓉没有出轨的概率。
不算不知道,一算吓一跳。在零假设成立的前提下,样本数据计算出马蓉没有出轨的概率是0.01%
这个概率值在统计概率中有个专门的术语叫p值。也就是,在零假设成立的前提下,得到样本观察结果出现的概率。
在这里p值就是在零假设成立的前提下(马蓉没有出轨),用样本证据计算出的马蓉没有出轨的概率,p=0.01%
现在我们来看第3步:判断标准是什么
我不能说有了证据就立马说明人家马蓉出轨,错误的判断会造成宝强家庭的毁灭性破坏。
所以,提前制定好一个定罪的标准,有助于我能做到:绝不能冤枉一个好人,但也不可放过一个坏人。
因为我定的零假设是:马蓉没有出轨。所以这里定的标准是,如果马蓉没有出轨的概率<=5%,那么就直接否定了零假设,也就是马蓉没有出轨不成立。
这里比较拗口,马蓉没有出轨的概率<=5%,反面就是马蓉出轨的概率大于95%,所以马蓉有很大概率出轨,因此把零假设:马蓉没有出轨否定了。
这里用于做出决策的标准5%,在假设检验里叫做“显著水平”,用符号α:Significance Level (Alpha)表示,是一个概率值。
第4步:做出结论
那么,马蓉到底有没有出轨呢?
我们将样本证据计算出的p值与判断标准α比较下就可以了:
如果p< =α,那么拒绝零假设,也就是备选假设成立。
如果p>α,那么零假设成立
这代表什么意思呢?
α是判断标准,也就是小于这个值就表示零假设不成立。
p值在零假设成立前提下,用样本证据得出的概率,在这里表示有样本证据得出马蓉没有出轨的概率。
通过比较这两个值,我们发现:p远远小于α。
马蓉小姐姐,样本证据对你大大不利啊。本想零假设证明你没有出轨的,但是样本数据给出的证据,也就是你没有出轨的概率只有0.01%,这个概率远远小于判断标准5%
所以,我可以大胆的拒绝零假设。
回到我们一开始提出的假设:如果零假设不成立,那么预备假设成立。
现在样本数据显示零假设不成立,所以预备假设成立,也就是马蓉出轨了。
我将这个毫无破绽的推理过程告诉宝强后,宝强顺藤摸瓜发现名下财产也被马蓉卷跑。最后再考虑各种解决方法后,选择了求助于法律手段。并在微博上公布了这件事情,求助于舆论的压力。
福尔摩斯说:一旦排除所有的不可能,剩下的不管多么难以置信,一定就是真相。
在唐人街探案中,刘昊然和王宝强破案时,也引用了这句话:
总结
最后,我们总结下假设检验的逻辑套路,你就更清楚了。
第1步:问题是什么?
确定你要研究的问题是什么。
根据这个问题我提出来下面两个互为相反的假设。
零假设:马蓉没有出轨
备选假设:马蓉出轨了
第2步:证据是什么?
在零假设成立的前提下,我们认为手头已有的数据是从零假设为真的总体中随机抽样得到的一个样本,但是这个可能性是多少?所以我们需要计算出这个概率,就是p值。
在例子中就,我们得出的证据显示,马蓉没有出轨的概率p=0.01%
第3步:判断标准是什么?
需要建立判断标准来检验证据是否有效。
假设检验常用的判断标准是与0.1%,1%,5%,在假设检验里叫做“显著水平”,用符号α,
它是一个概率值,用于表示不可能发生和可能发生的临界值。
第4步:做出结论
根据你找到证据,和自己的标准,你做出了正确的结论。这是一种使用数据和概率来做决策的过程。
我们将样本证据计算出的p值与判断标准α比较下就可以了:
如果p< =α,那么零假设不成立,也就是预备假设成立。
也就是如果得到样本平均值的概率p值小于显著水平(5%或者1%或者0.1%),那么通常被视为不太可能发生,拒绝零假设。
在前面的例子中,p值是指在零假设成立前提下,用样本证据得出的概率,在这里表示有样本证据得出马蓉没有出轨的概率。
如果p>α,那么零假设成立
通过比较这两个值,我们发现:p远远小于α。
从而证明零假设不成立,备选假设成立,也就是马蓉出轨了。
假设检验这个过程,虽然套上了统计概率的外衣,但是说白了,底层思想其实很简单,就是:一种逻辑推理的套路。
这个逻辑推理,其实我们每天都在用。我们平常说某个人心思细腻,逻辑严谨。其实你也可以做到,那就是掌握今天的逻辑推理套路:假设检验。
我是猴子,中科院硕士/前IBM软件工程师/豆瓣8分《数据分析思维》作者,我和知乎知学堂研职在线联合出品的「数据分析训练营」即将开课,3天带你掌握数据分析实用技巧,包含课程+实战带练,工作提效、升职加薪必备神器!
报名还有独家Excel自学资料领取,点击开启数据分析升职加薪密码:
往
期
回
顾
⬇️点击「阅读原文」
免费报名 数据分析训练营
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。