赞
踩
作者写本文时的面部活动
大家好,这篇的题目是早就列入计划的。本期不写机器学习,而是写统计学中一个最广泛的应用---假设检验。作为数据科学一个硬币的两面(统计学与机器学习),统计学往往在科研数据分析中应用的次数更多。
一、假设检验(Hypothesis Test)概述
一句话定义:用一些特定的数值来确定样本是否来自某一个总体。假设检验是一种常见的基于样本的“统计证据”来对总体进行推断的方法。
这么讲很抽象,我们来举个例子,假设有人说:“在马萨诸塞州某一天(没错我就直接搬Matlab中的例子了),1加仑汽油的平均价格是1.15美元”。我们想知道他说的对不对。怎么能确定这个说法的真实性呢?你可以在每个加油站询问价格。这种方法当然是最准确的,但它耗时、昂贵,实际操作是不可能的。
一种更简单的方法是在全州范围内随机选择少数几个加油站询问价格,然后计算样本平均值。由于选择过程中的随机性,样本的平均值会各不相同。假设我们的样本均值是1.18美元。那么这0.03美元的差价到底是随机抽样的结果(1加仑汽油的平均价格就是1.15美元),还是1加仑汽油的平均价格实际上大于1.15美元的重要证据?此时就可以用假设检验的方法,用于做出此类决策。
假设检验有很多不同种类,不同的假设检验对数据中被抽样的随机变量的分布做出不同的假设(都有哪些假设后面讲)。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。