赞
踩
第4部分:统计学
仅作为学习记录作为参考
统计学 - 总共分为16部分:
1、描述统计学 - 第一部分(选修)
2、描述统计学 - 第二部分(选修)
3、录取案例分析
4、概率
5、二项分布
6、条件概率
7、贝叶斯规则
8、Python概率练习
9、正态分布理论
10、抽样分布与中心及限定理
11、置信区间
12、假设检验
13、案例研究:A/B测试
14、回归
15、多元线性回归
16、逻辑回归
项目:A/B测试项目
一、描述统计学 - 第一部分(选修)
1、数据类型
数据类型
数值
连续
离散
身高、年龄、收入
书中的页数、院子里的树、咖啡店里的狗
分类
定序
定类
字母成绩等级、调查评级
性别、婚姻状况、早餐食品
2、分析数值:数据
在分析离散数值数据和连续数值数据的时候,分析数值数据有四个主要方面:
center(集中趋势)
spread(离散程度)
shape(形状)
outliers(异常值)
集中趋势测量的方式有三种:
三大测量方法:mean(均值)、median(中位数) 、mode(众数)
3、符号表达式介绍
表达式,学术和工业界专业人士用来传达数学思想的通用语言。符号表达式让难以用语言表达的想法变得更容易传达。
随机变量
随机变量是某些进程的可能值的占位符。我们看到随机变量用大写字母表示(X、Y 或 Z 是表示随机变量的常用方法)。它可以是从 0 到无限的任意值。
大写字母与小写字母
随机变量用大写字母表示。每当我们观察到这些随机变量的一个结果,就用相同字母的小写表示。
4、更多聚合的知识
Σ 符号用于使用求和进行聚合,但是我们可以选择通过其他方式进行聚合。求和是最常见的聚合方式之一。但是,我们可能需要以其他方式进行聚合。如果我们想将所有的值相乘,我们可以使用求积符∏ ,希腊字母 π 的大写。我们聚合连续值的方式称为积分(微积分中的一种常用技术),它使用以下符号 ∫ ,就像一个拉长的 s。(π(option+P),∫(option+B))
求和sigma ∑
(如何在键盘上打出∑这个符号?同时按住option和W键即可)
求和并计算均值⬇️
![求和并计算均值](https://upload-images.
.io/upload_images/5016667-ea76c4633a173f82.png?imageMogr2/auto-orient/strip%7CimageView2/2/w/1240)
总结
二、描述统计学 - 第二部分(选修)
本部分主要讲分析值变量的第二方面:离散程度
离散程度测量用于告诉我们数据之间的分散程度。常见的离散程度测量包括:
极差(Range)
极差又称全距,是最大值(MAXMUM)和最小值(MINMUM)之间的差值。
四分位差 (IQR)(inter-quartile range)
四分位差为Q 3 和 Q 1 之间的差值。
标准差(Standard Deviation)
每个观察值与均值之间的平均差异。
方差(Variance)
直方图对于了解数值数据的不同方面是非常有用的。理解前面提到的关于数值变量的四个方面:
集中趋势
离散程度
形状
异常值
很神奇,一个数据的众数、中位数、平均数都一样,离散程度差很多。
离散程度差异通过直方图表现出来
1、五数概括法
五数概括法包括 5 个值:
最小值(MINMUN): 数据集中的最小值。
Q 1(第一四分位数):排序后数据第 25% 处的值。
Q 2(中位数):排序后数据第 50% 处的值。
Q 3(第三四分位数):排序后数据第 75% 处的值。
最大值(MAXMUM): 数据集中的最大值。
需要注意的是,Q2不用在计算Q1和Q3 的数据集中。
奇数个数值计算Q1 Q2 Q3
对于偶数个数值。
偶数个数值计算Q1 Q2 Q3
2、标准差和方差
标准差和方差计算两个数据哪个更分散,数据越大越分散
标准差(Standard Deviation)
每个观察值与均值之间的平均差异。
方差(variance)是在概率论和统计方差衡量随机变量或一组数据时离散程度的度量。
求方差
如何求标准差
方差和标注差部分——总结
方差和标准差都能用于比较两组不同数据的离散程度。方差/标准差较高的一组数据相比较低的一组数据,其分布更为广泛。但是注意,有可能只有一个(或多个)异常值提高了方差或者标准差,而大多数数据实际上比较集中。
在比较两个数据集之间的离散程度时,每个数据集的单位必须相同。
当数据与货币或经济有关时,方差(或标准差)更高则表示风险越高。
在实践中,标准差比方差更常用,因为它使用原始数据集的单位,标准差的单位是原始数据单位的平方,这没什么实际意义。
3、形状和异常值
形状
数据的分布通常为以下三种形状之一:
右偏态(类似幂律分布)
左偏态
对称分布(通常是正态分布)
右偏态
关于形状小结
异常值
异常值是明显偏离其余数据点的点。这会极大地影响均值和标准差等度量,而对五数概括法中的第1四分位数、中位数、第2四分位数的影响较小。
当出现 异常值 时,我们应该考虑以下几点。
注意到它们的存在以及对概括性度量的影响。
如果有拼写错误 —— 删除或改正。
了解它们为什么会存在,以及对我们要回答的关于异常值的问题的影响。
当有异常值时,报告五数概括法的值通常能比均值和标准差等度量更好地体现异常值的存在。
报告时要小心。知道如何提出正确的问题。
异常值处理建议
在数据集中使用列(随机变量)的准则。
绘制你的数据以确定是否有异常值。
通过上述方法处理异常值。
如果无异常值,且你的数据遵循正态分布,使用均值和标准差来描述你的数据集,并报告数据为正态分布。
如果你有偏态数据或异常值,则使用五数概括法来概括你的数据并报告异常值。
4、描述统计与推论统计
描述统计
描述统计 是用我们在本课中谈到的度量描述收集的数据:集中趋势度量、离散程度度量、分布形状和异常值。我们也可以通过绘制数据图获得更好的理解。
总体 —— 我们想要研究的整个群体。
参数 —— 描述总体的数值摘要
样本 —— 总体的子集
统计量 —— 描述样本的数值摘要
三、录取案例分析
1、 录取案例练习:辛普森悖论
案例总结:查看数据的方式的不同会引起完全不同的结果。
四、概率
1、概率和统计的区别
统计和概率是不同但又紧密相关的数学领域。
在概率中,我们根据假定的模型或原因,对未来事件做出预测;而在统计中,我们对过去发生的事件中的数据进行分析,从而推断出这些模型或原因是什么。一个是预测数据,另一个是根据数据进行预测。
举个
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。