赞
踩
1.结构化数据:指特征和观察值以表格形式存储(行列结构)
2.数据预处理:将数据转化为结构化数据。
3.定量数据:通常用数字表示,并支持包括加法在内的数学运算。(缺一不可,既要是数字又要能运算才行)
离散型数据:通常指计数类数据,取值只能是自然数或整数。
连续型数据:通常指测量类数据,取值为无限范围区间。
4.结构化数据的四个尺度
(1)定类尺度:主要指名称或类别数据,如性别、国籍、种类和啤酒的酵母菌种类等。无法用数字表示,属于定性数据。
测度中心:是一个描述数据趋势的数值,有时也被称为数据平衡点。常见的测度中心有平均值、中位数和模。定类尺度的测度中心通常用模,因为也无法计算平均值和中位数。
(2)定序尺度:是指对事物之间等级差或顺序差别的一种测度。不仅可以将事物分成不同的类别,而且还可以确定这些类别的优劣或顺序。为数据提供一个等级次序,根据它可以对观测值进行排序,但它仍然不支持计算两个观测值间的相对差异,也就是观测值之间的相加或者相减得到的结果没有意义。比如考试成绩就是定序尺度数据。
适用的数学运算:排序和比较。
测度中心:通常用中位数,而不是平均值表示测度中心,因为定序尺度数据不支持触发。也可以用模作为测度中心。
(3)定距尺度:是指对事物类别或次序之间间距的测度,该尺度通常使用自然或物理单位作为计量尺度。定距尺度不锦囊将事物区分为不同类型并进行排序,而且可以准确地之处类别之间的差距是多少。可以用均值和其他更复杂的数学公式描述数据。温度就是最常见的定距尺度数据。
适用的数学计算:排序、比较、加法、减法等。
测度中心:中位数和模,更准确的是算术平均值,通常简称为均值。
变差测度:描述数据分布的广度的度量,即是一个描述数据分散程度的数字,比如标准差。
标准差:是定距尺度和更高尺度数据中应用最为广泛的变差测度。可以被理解为数据点到均值点的平均距离。计算步骤:
1)计算数据的均值;
2)计算数据集中的每一个值和均值的差,并将其平方;
3)计算第 2)的平均值,得到方差;
4)对第 3)步得到的值开平方,得到标准差。
计算标准差时,没有直接使用数据点和平均值的差,而是将差值平方后使用。这样做是为了突出离群值——哪些明显原理平均值的数据点。
定距尺度没有自然的起始点或者自然的零点。
(4)定比尺度:定比尺度是类似于定距尺度、又高于定距尺度的一种计量方法,两者的主要区别在于“0”的涵义。在定距尺度中,“0”表示一个有特定内涵的数值,不表示“没有”,在定比尺度中,“0”表示“没有”或该事物不存在未发生。具有定距尺度所拥有的同样的属性,同时还具有绝对或自然的起点,即存在可以作为比较的共同起点或基数。
测度中心:算术平均值对定比尺度仍然有效,同时还增加一种叫几何平均值的新均值类型。它是指n个观察值连乘积的n次方根。
定比尺度数据通常是非负数。
数据归属的层次必须在开始分析之前确定好,否则会犯原理性的错误。
(1)测度中心:数据集的中心是测度中心,测度中心是对(大型)数据集进行归纳、概括,以便能够方便进行交流的一种方式。比如某市的平均降水量和亚洲男性的平均身高。常见的测度中心的计算方法有:
算术平均值,等于数据集中所有元素之和除以元素的个数。但是它对离群值非常敏感。
中位数:是已排序数据集中处于中间位置的值。它对离群值不敏感。当数据集中有较多的离群值时,使用中位数作为测度中心比较合适。相反,则采用平均值更好。
(2)变异测度:量化数据离散程度的方法。常见的变异测度方法有:
区间,等于数据集最大值减去最小值,它量化了两个极值之间的距离,在非常关心离群值的离散程度的场景中应用较多,例如安全气囊的打开时间。
标准差,计算方法上面有。标准差的单位与数据集本身的单位一致。
方差,与标准差的区别是它没有开方。
(3)比较两个完全不同的数据集的离散程度,甚至连数据尺度都不同。需要用到变异系数:
变异系数是样本标准差除以样本均值得到的比率。通过该比率,我们可以对标准差进行标准化,从而对多个数据集进行横向比较。
(4)相对位置测度,用于度量数据点相对整个数据集的位置。
z分数,用于描述单个数据点和均值之间的距离。用数据点减去均值,再除以标准差得到z分数。
相关系数,是描述两个变量之间相关性强弱关系的量化指标。
相关系数值介于-1~1.
相关系数绝对值越大(接近-1或1),变量间的相关性越强。最强的相关性为-1和1.最弱为0.
正相关意味着一个指标增加,另一个指标也增加。
负相关意味着一个指标增加,另一个指标却下降。
用pandas快速计算各个特征之间的相关系数:df.corr()
经验法则指我们可以推算出标准正态分布中每个标准差区间所含有的数据量。
根据经验法则:
接近68%的数据点和均值相差1个标准差以内。
接近95%的数据点和均值相差2个标准差以内。
接近99%的数据点和均值相差3个标准差以内。
通过计算样本的统计量得到总体参数的方法,即通过样本数据估计总体参数叫做点估计法。
例如统计9000名员工的平均休息时长,就难以对所有员工均进行统计,这时就可以抽取其中的100名进行统计,计算他们的平均休息时长,用这个值来替代总体的值。
抽样分布
多个大小相同的样本的点估计的分布。
抽样分布之所以呈正态分布是因为中心极线定理。随着我们增大样本的数量,抽样分布(点估计的分布)将逐渐趋向正态分布。而且,随着样本数量越来越多,样本均值的分布将越来越接近真实的均值。
用点估计来估算总体的参数和抽样分布,存在两个问题:
(1)单个点估计非常容易出错。
(2)计算多个固定大小样本的抽样分布是不可行的,有时甚至比直接计算总体参数还难。
置信区间是一个区间值,是指在给定置信水平下,该区间将包含总体参数。
置信水平不是结果“正确的概率”,相反,它表示结果“准确的频率”。比如,假设我们希望每一次点估计都能以95%的概率得到准确的总体参数,那么置信水平需要设置为95%。较高的置信水平将导致置信区间变得更广。
误差幅度值我们能够接受的点估计的误差范围,它依赖于置信区间、数据的方差和样本大小。
假设检验是统计学中应用最广泛的检验方法之一。用来确定总体中给定的样本,我们是否能够接受某一特定假设。
假设检验通常有两个相反的假设,我们称之为原假设和北泽假设。原假设是被检验的假设,也是默认正确的假设,它是试验的出发点。备择假设通常是与原假设相反的假设。我们通常基于p值(依赖于置信水平)做出决定。
(1)实施假设检验
明确假设
形成两个假设:原假设和备择假设。
通常用H0表示原假设,符号Ha表示备择假设。
决定被检验样本的大小
样本大小取决于被选择的检验类型。样本大小必须合适,并服从中心极线定理和数据正态性假设。
选择置信水平(通常叫做阿尔法α)
通常0.05的显著性水平
收集数据
决定是否接受或拒绝原假设
取决于假设检验的类型
如何选择假设检验的类型?
最需要考虑的因素是被检验数据的类型——连续型还是分类数据。
(2)单样本t检验
对于连续型数据,选择t检验。(t检验是否只能用于对均值进行检验?t检验主要用于样本含量较小,总体标准差未知的正态分布,是用t分布理论来推论差异发生的概率,从而比较两个平均数的差异是否显著。)
单样本t检验是一种用于检验样本(数值型)是否和另一个数据集(总体或其他样本)具有显著性差异的统计检验方法。
t检验需要满足的条件:
总体要满足正态分布,或样本大小至少大于30(是指数据最少有30个吗?是的,比如一共9000人,样本有400人>30人)(这是为了确保数据的正态性)(为什么样本大于30个就能确保正态性了?这个30是怎么来的?)
总体大小至少是样本大小的10倍,以确保样本是独立随机样本。
样本在保持正态性的同时,还要样本独立,这可以通过取少量样本实现。
双尾假设和单尾假设:假设原假设是工程部的平均休息时长和公司平均休息时长相同,那么备择假设可以是:a.工程部平均休息时长不等于公司的平均休息时长,这就是双尾检验。b.工程部平均休息时长低于公司的平均休息时长,或者工程部平均休息时长高于公司的平均休息时长,这就是单尾检验。
t检验的步骤:
明确假设
决定被检验样本的大小
选择显著性水平,显著性水平95%,意味着α=1-0.95=0.05
收集数据
决定是否接受或拒绝原假设:需要计算检验统计量和p值。
检验统计量是根据样本数据计算的一个数值,我们通常根据它决定是否应该拒绝原假设。这里是t检验,t值就是检验统计量。它表示原假设中样本均值的偏离程度。
p值是观测值出现的概率,它通常和检验统计量一起使用。p值用于体现检查结果是否可靠,他们我们最终做出结论的依据。如果p值等于0.06,说明我们有6%的概率得到这个结果,即有6%的样本可以得出这样的结果。
当有强烈的证据拒绝原假设的时候,检验统计量通常非常大(正负皆可),p值通常非常小,这意味着检验结果是非常可靠的,而不是随机出现的。
如果p值低于显著性水平,则拒绝原假设;如果p值高于显著性水平,则接受原假设。
(3)Ⅰ型错误和Ⅱ型错误
当原假设正确,而我们却拒绝了原假设时称为Ⅰ型错误,过假阳性;
当原假设错误,但我们没有拒绝原假设时称为Ⅱ型错误,或假阴性;我们设置的置信水平越高,越容易遇到假阴性。
(4)分类变量的假设检验
卡方检验适用于定性数据,主要用于:
检验样本中的分类变量是否来自于某个特定总体(和t检验类似)
检验两个分类变量是否彼此影响。
卡方拟合度检验
t检验用于检验样本均值是否等于总体均值。卡方拟合度检验和t检验类似,用于检验样本分布是否符合预期。两者最大的不同在于卡方检验的对象是分类变量。
通常情况下,卡方拟合度检验用于:
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。