赞
踩
功能:分类作用,比如性别。英文:Norminal
功能:分类、排序作用,比如喜欢的艺人、年级。英文:Ordinal
功能:分类、排序、加减,比如温度。英文:Scale
功能:分类、排序、加减、乘除,比如年龄、体重等。有绝对零点。英文:Scale
分类说法:定类与定序合称分类变量,定距与定比合称连续变量。Tableau就是这样分类:分类-维度,连续-度量。
描述统计方法:
n个数据的乘积开n次方。计算多年增长率的复合增长率
互联网数据分析用的很少,一般当数据在下限值附近的时候,例如是右偏分布的时候(波峰偏左),这个均值比前两个都小。
又称trim平均,从上限值和下限值中去掉一定比例(通常5%)的数据后剩下的数据的算术平均。可以去除最大最小值的原因是因为这些值可能是异常值。
当一组序列数据之间差异较大时,导致平均值代表性较弱,可通过中位数来表示数据的集中趋势
平均值、中位数通常应用在连续变量中,即数值型变量。众数既可以用在连续变量,也可用在分类变量中。
对数据的离散状态进行分析,本课程内只介绍最常用的两个。
指分布的最大值和最小值的距离。
作为表示各个数据相当于平均值的离散程度的指标。
z值转换公式:用来将t分布转换为z分布,即(标准差0,均值为1),又称为标准化,或Z值标准化。Z=(xi-x)/s(xi原始样本数值,x样本均值,s标准差),用于判断哪些数值为异常值。Z值绝对值大于3为异常值,大于5为极端值。
Excel两个函数:TINV(概率值求t值)、TDIST(t值求概率值)
T=1.65,对应90%的置信度,T=1.98,对应95%的置信度,T=2.58,对应99%的置信度
10万以下一般都属于小样本
如何选择分层变量,考虑因素:
因此可以将与研究主题不太相关的主题可以不考虑,或者将因素的分类减少。
很多场景都用,非常经典的方法。
假设检验的结论:P<0.05,则研究假设成立;反之,p>0.05,则研究假设不成立。
属于非参数检验,适用于不知道总体参数的检验,是最常用的一种非参数检验。当不适用参数检验法时,第一个想到的就是卡方检验。
检验一个变量是否包含相同频率或与用户指定比例一致。
操作:分析-非参数检验-旧对话框-卡方检验
原假设:变量的取值分布与均匀分布(或研究者设定的分布)没有显著差异
研究假设:变量的取值分布与均匀分布(或研究者设定的分布)有显著差异
P<0.05,则研究假设成立。
检验一个变量取二分类两个值的概率是否符合设定的概率。概率有时候是50%,有时候可以是别的值。
操作:分析-非参数检验-旧对话框-二项
原假设:变量的第一个取值比例与设定比例没有显著差异
研究假设:变量的第一个取值比例与设定比例有显著差异
分割点:是将一个连续变量,选择一个值分割为大于该值和小于该值。
检验样本来自的总体中,一个变量的分布是否服从正态分布、均匀分布、泊松分布、指数分布。
原假设:变量来自总体的分布与正态分布(或均匀分布等)没有显著差异,即变量在总体中呈现正态分布(或均匀分布等)。
研究假设:变量来自总体的分布与正态分布(或均匀分布等)有显著差异,即变量在总体中不呈现正态分布(或均匀分布等)。
检验某一变量的两个值的出现顺序是否随机。
研究假设:变量两个值出现顺序不是随机的
独立样本:两组不同不重叠的样本,比如男性和女性
检验两组样本在收入、年龄等分布上是否有差异。即检验不同人群在特定变量取值上是否有差异。
研究假设:两组来自总体的变量数据在分布上有差异,即两组数据在该变量的去之上有显著差异
操作:分析-非参数检验-旧对话框-2个独立样本
注意:分组变量是分类变量、比较变量是连续变量
配对样本:同一组人群在不同时间采集的两组或多组数据;或者同一组人群不同身体部位采集的两组或多组数据。
检验同一组人群在不同时间、不同部位采集的数据是否有差异。
研究假设:来自总体的同一组人群的两组数据在分布上有差异,即两组数据在该变量的取值上有显著差异
操作:分析-非参数检验-旧对话框-2个相关样本
注意:t1、t2,比较的变量必须是连续变量
检验两个分类变量是否存在相关性。
如果场景中需要对连续变量进行卡方检验,首先需要将连续变量转换为分类变量,如年龄分为70后、80后、90后、00后……
连续变量转成分类变量的操作:转换-重新编码为不同变量,收入分为0-50,50-100,100以上等。
如果两个变量都是定类变量,相关系数可通过卡方检验中“名义”里的四个相关系数;如果两个都是定序变量,则选择“有序”里的四个相关系数。
问:如果两个变量中,一个为定类变量,一个位定序变量,相关系数应该选哪个?
答:应该用“名义”中的四个相关系数,原因是定序变量可降级为定类变量,而定类变量不可以升为定序变量。
第一步:看卡方统计结果,根据P值判断两个变量是否存在相关性,如P<0.05,则说明两者存在显著相关性
第二步:看相关系数,判断两者之间相关性到底有多大。0-0.2,较弱相关;0.2-0.4,弱相关;0.4-0.6,相关性一般;0.6-0.8,较强相关;0.8-1,极强相关。
第三步:看频次分布,具体分析两者存在什么样的相关。
假设检验的结论:P<0.05,则研究假设成立;反之,p>0.05,则研究假设不成立。(有时P值也称Sig,significance)
某个连续变量的样本均数与给定总体的已知均数相比,其差异是否有显著。
用到的变量:一个连续变量
数据要求:小样本时来自的总体服从正态分布,如果大样本或者是数据收集的时候没有特殊性,可以忽略正态分布的假设。
操作:分析-比较平均值-单样本t检验
用来检验两组独立样本在某个连续变量的均值是否有显著差异。
用到的变量:一个连续变量和一个分类变量(也可以将连续变量进行分组(分割点)变成分类变量)
原假设:两组独立样本来自的总体在该变量的均值上没有显著差异
研究假设:两组独立样本来自的总体在该变量的均值上有显著差异
操作:分析-比较平均值-独立样本t检验
用于判断看哪个t值
原假设:两组总体中的方差是相等的
研究假设:两组总体中的方差是不等的
当p<0.05,则研究假设成立,即两组总体中的方差是不等的,需要看第二行的t值检验结果。反之则看第一行的t值结果。
用来检验同一组样本不同时间/部位/处理条件测量得到的两组数据均值是否存在差异。
原假设:两组配对数据之间没有显著差异
研究假设:两组配对数据之间有显著差异
变量:两个连续变量(其实是针对同一组人群不同时间/部位/处理条件测量的两组数据)
操作:分析-比较平均值-成对样本t检验
又称F检验、ANOVA。
变量要求:自变量既可以是分类也可以是连续变量,因变量必须是连续变量。
因素:因素是可能对因变量有影响的变量
水平:因素的不同取值等级称作水平
单元:亦称为实验单位,指各因素的水平之间的每种组合。
交互作用:
检验3组及以上人群在某个连续变量均值上是否存在差异,或某个分类变量对某个连续变量是否存在显著影响(显著相关)
变量:**因变量是一个,且为连续变量;**自变量是一个,为分类变量(如果是连续变量要分组)
研究假设:自变量与因变量之间存在显著相关(不同人群之间在该连续变量的均值上有显著差异)
操作:分析-比较平均值-单因素ANOVA检验
- 两两比较中根据方差齐性检验结果,来选择方差相等的比较结果或方差不等的检验结果。
- 方差齐性检验在:选项-方差齐性检验。当方差不齐时,则通过非参数检验中的K个独立样本检验法进行检验。
检验多个变量在某个连续变量均值上是否存在差异,或多个变量对某个连续变量是否存在显著相关。
变量:**一个因变量,且为连续变量;**自变量有多个(既可以是分类变量也可以是连续变量)
研究假设:多个自变量与因变量之间存在显著相关
拆开来看研究假设:
因子A对因变量有影响;因子B对因变量有影响;因子A与因子B有交互作用(三个因素的交互影响一般不考虑)
操作:分析-一般线性模型-单变量
也要进行方差齐性检验
当自变量特别多时,尤其是分类自变量特别多,且样本量不多时,应该使用定制模型。
全因子模型:既考虑所有自变量对于因变量的直接效应,又考虑所有分类变量的交互作用对因变量的影响。
(构建项/构建定制项)定制模型:可根据研究者自身需求,定制需要考虑的对因变量的影响因素。比如只考虑自变量的直接效应,或部分自变量的交互作用。
相关系数是衡量两个变量之间变化趋势的相关性
常用方法:散点图;计算相关系数
原假设:两个变量来自总体中不存在显著相关性
研究假设:两个变量来自总体中存在显著相关性
显著性检验目的:是用来判断两个变量在总体中是否存在相关性
相关系数:是计算两个变量在样本数据中的相关性强弱
操作:分析-相关-双变量
注意:计算相关性的变量为连续变量,加入控制的变量同样也是连续变量
操作:分析-相关-偏相关性
*目的:*当需要用一个数学表达式(模型)表示多个因素与另外一个因素之间关系时,可选用回归分析法。
*R2:*自变量对因变量的解释能力,即r(相关系数)的平方。注意r不一定是一元一次回归模型里x前面的值,x前面的值是要考虑x和y的量纲的。
*应用:*和有监督模型的两个通用目的相同:
1)分析哪些自变量对因变量存在显著影响作用,R2值可以不要求大于0.8;
2)通过选择对因变量存在显著影响的自变量,建立预测因变量取值的预测模型,模型R2必须要求大于等于0.8。
但是,在人文社科领域,很多回归模型的R2值达不到0.8,也可以用来做预测。
画图位置:图形-图表构建器
解决问题:分析影响人们家庭收入的因素有哪些,建立预测收入的回归方程
因变量:家庭收入
自变量:年龄、工作年限、性别(因为只有男女01)、学历(变成虚拟变量)
操作:分析-回归-线性
“统计”中勾选共线性诊断、DW
“图”中勾选标准化残差图下的:直方图、正态概率图
原因:分类变量无法参与到回归模型中的加减乘除运算
操作:将原先的分类编码统一转换为0、1数值
Ed=12345,转换为4个变量,选择第三个值为对照(也可以选其他值为对照人群)
还可以转换为5个变量,这时没有对照人群,都有一个1。
1 2 3(对照人群) 4 5 Ed1 1 0 0 0 0 Ed2 0 1 0 0 0 Ed3 0 0 0 1 0 Ed4 0 0 0 0 1 SPSS软件操作:选中要转换的字段列-转换-重新编码为不同变量,定义新值和旧值的对应关系
拟合优度检验:
参数显著性检验:
根据每个自变量的t值对应的概率P值是否小于0.05,如小于0.05,则研究假设成立,即该自变量对因变量存在显著影响。
根据下表得出:
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-NPJl7JWu-1613448172329)(G:\个人文档\拉勾教育数据分析训练营\第六阶段 统计学\统计学个人笔记.assets\image-20210209091708359.png)]
工作年龄和学历对收入有显著影响,而年龄和性别没有。通过标准化系数来判断两者对影响程度大小,可知工作年限的影响明显大于学历。
工作年限对收入影响程度(未标准化系数的B):在其他变量不变的情况下,工作年限每增加一个单位(1年),则因变量家庭收入平均增加6.279个单位。
学历对收入的影响程度(4个虚拟变量):Ed1 = -51.042表示Ed1代表的学历(高中以下)比对照的学历人群(大专学历)在因变量家庭收入上,平均低51.042个单位 ——其他同理
共线性检验:通常根据VIF>10,自变量之间存在共线性。如果存在共线性,可用逐步法解决。
残差检验:DW越接近2,表示残差越不存在自相关性。——主要看两个图表:直方图、正态P-P图
将对模型没有显著影响的因素剔除掉
操作:用逐步回归法,在线性回归的方法中选“步进”,从自变量中将对模型没有影响的因素删除掉。
以下结果为三次逐步回归后,R方值很接近1得到的结果。第三个模型是最准确的
回归方程:y=34.601+6.021*
工作年限-62.647*
ed1-36.379*ed2
发现模型中没有ed3和ed4,那就无法完整反应学历的影响。需要强制将他们放到模型里。操作是:任务三-6-32:42
,在回归分析中将四个学历放在下一层(SPSS软件里选“下一个”),方法选强制。得到如下结果
回归方程:y=22.629+6.087*工作年限-51.637*
ed1-25.174*
ed2+16.717*
ed3+28.459*
ed4
操作:先通过散点图判断是否存在非线性关系(用telecon数据)
SPSS操作1:分析-回归-曲线估算
自变量:Ininc;因变量:Income
Income = eIninc
SPSS操作2:分析-回归-非线性
- 因变量:Income
- 自己写模型表达式a*EXP(b
*
Ininc)- 点“参数”设置初始值
目的:对多个具有较高相似性的变量/指标进行降维,前提是这些变量/指标之间必须存在一定的相关性/相似性
分析-降维-因子
KMO>0.7,适合做因子分析
累计方差贡献率需要达到多少才合适:
判断因子数量:碎石图拐点位置的因子数量(现在已经比较少用);因子特征值>1;因子的累计方差贡献率
因子的划分:根据每个变量在每个因子中的取值是否大于0.5
效度检验(应用场景2)(用因子旋转载荷矩阵):
用于判断保留哪些变量,这种方法也主要应用于探索性因子分析
因子原始得分计算(用因子得分系数矩阵,一般每个值都不大于0.5):F1 = x1*a1 + x2*
a2……
因子轴旋转后的因子得分:在变量视图里可以找到几个
做分类预测模型,且为非参数检验方法。可以用于二分类、无序多分类、有序多分类。
位置:分析-回归-二元Logistic
首先选“输入”方法,统一看下自变量对因变量的影响程度
很重要的一个结果是“分类表”,用来判断逻辑回归模型的准确率。
看另一个表“方程中的变量”:
然后再次进行逻辑回归操作,选“向前”或“向后”方法,剔除影响程度小的变量。
之后如果发现有的变量被剔除了,可以用分层的方法(选“下一个”),用“输入”方法,强制将某变量加进来
优势比(OR值,在表格中是Exp(B))大于1,表示该自变量会增加因变量取1的概率的发生;反之会降低因变量取1的概率。
连续自变量对因变量的影响程度解读:在其他变量不变的情况下,当年龄增加一个单位(1岁)时,优势比增加1.385倍(年龄越大、退休概率越高)
分类自变量对因变量的影响程度解读:
在Level of education的4个虚拟变量中,只有第3个虚拟变量有显著影响。虚拟变量的对照组是"Post-undergraduate",第3个虚拟变量是"Some college"。所以这个结果的解读是:在其他变量不变的情况下,大专学历的优势比是研究生学历优势比的0.120倍,即大专学历高于研究生学历的退休概率
Logistic公式:
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Idmi5va0-1613448172339)(G:\个人文档\拉勾教育数据分析训练营\第六阶段 统计学\统计学个人笔记.assets\image-20210213111220030.png)]
l
n
(
p
/
(
1
−
p
)
)
=
−
20.305
−
0.782
∗
e
d
1
−
0.561
∗
e
d
2
−
2.121
∗
e
d
3
−
1.897
∗
e
d
4
−
0.429
∗
g
e
n
d
e
r
+
0.326
∗
a
g
e
ln(p/(1-p)) = -20.305-0.782*ed1-0.561*ed2-2.121*ed3-1.897*ed4-0.429*gender+0.326*age
ln(p/(1−p))=−20.305−0.782∗ed1−0.561∗ed2−2.121∗ed3−1.897∗ed4−0.429∗gender+0.326∗age
最后SPSS会自动生成两个变量:
PRE是指每个人的概率,概率和0.5比较,如果>0.5,则因变量取值。这个0.5是在回归分析中的“选项”里设置“分类分界值”
PGR是指每个人的因变量取值
位置:分析-回归-多元Logistic回归
参考类别选哪个都可以,结果没差别。
统计里的几个模型可以定制看各个变量的影响
因子选分类变量,协变量选连续变量。
保存里选择“预测类别”和“预测类别概率”,和二元回归一样。
似然比检验,根据其显著性的值,可以判断几个自变量和因变量有没有相关性。
参数估算值有两个大表,原因是其实相当于建立了两个二元逻辑回归。
操作位置:分析-回归-有序
在“输出”勾选“平行线检验”、“预测类别”和“预测类别概率”。位置,选主效应。
“模型拟合信息”表:显著性<0.05,说明至少有一个自变量对因变量有影响作用
“拟合优度”表,显著性>0.05,说明模型的拟合状态还不错。
“伪R方”,一般不看这个结果。
“参数估算值”:
阈值一栏里:对有序变量逐次切割之后做的二元回归
位置一栏里:“显著性”<0.05的,说明该变量对因变量有显著影响,可将“显著性”>0.05的变量去除后,再重新做一次回归预测
“平行线检验”,检验当因变量划分不同取值时建立的多个二元Logistic回归,自变量对因变量的影响程度是相同的。如果该检验不成立,则不能选择有序多分类模型,改用无序多分类模型。当P>0.05,说明原假设成立,则平行性检验成立,可以建立有序多分类模型。
“参数估算值”:这里没有直接计算出优势比(Exp(B)),但是“位置”一栏的“估算”就是B。所以可以根据估算值的正负来判断:如果为正,则该参数增加因变量取大于1的概率,如果为负则增加因变量取小于1的概率。
模型公式:
l n ( p 1 / ( 1 − p 1 ) ) = − 2.494 − 0.032 ∗ a g e + 0.003 ∗ i n c o m e ln(p1/(1-p1)) = -2.494-0.032*age+0.003*income ln(p1/(1−p1))=−2.494−0.032∗age+0.003∗income
p1表示学历取1的概率
l n ( p 2 / ( 1 − p 2 ) ) = − 1.110 − 0.032 ∗ a g e + 0.003 ∗ i n c o m e ln(p2/(1-p2)) = -1.110-0.032*age+0.003*income ln(p2/(1−p2))=−1.110−0.032∗age+0.003∗income
p2表示学历取1和2的概率
l
n
(
p
3
/
(
1
−
p
3
)
)
=
−
0.192
−
0.032
∗
a
g
e
+
0.003
∗
i
n
c
o
m
e
ln(p3/(1-p3)) = -0.192-0.032*age+0.003*income
ln(p3/(1−p3))=−0.192−0.032∗age+0.003∗income
p3表示学历取1、2、3的概率
l
n
(
p
4
/
(
1
−
p
4
)
)
=
1.649
−
0.032
∗
a
g
e
+
0.003
∗
i
n
c
o
m
e
ln(p4/(1-p4)) = 1.649-0.032*age+0.003*income
ln(p4/(1−p4))=1.649−0.032∗age+0.003∗income
p4表示学历取1、2、3、4的概率
普通ARIMA模型和因果关系ARIMA模型的区别就是,自变量是否要考虑因果关系的滞后性(普通的不考虑)
ARIMA模型建立的前提是时间序列数据必须为平稳序列,可通过单位根检验(ADF)来判断一个序列是否平稳。如果不平稳,可通过差分进行转换。
ARIMA中的I就是差分进行了几阶差分,如果没有差分就是0
通过自相关系数(ACF)的拐点,乘以4得到周期。
定义时间:数据-定义日期和时间
建立模型:分析-时间序列预测-创建传统模型
结果解读:
模型1:Yt = 8.579+0.999*
Yt-1+0.6333*Yt-12(12个月为一个周期,所以这里是t-12)
只有当数据窗口中有空的时间数据时,选了预测之后才会有预测结果,不然的话就没有预测。预测结果在输出窗口中,数据窗口中没有。
操作位置:分析-时间序列预测-创建时间因果模型
时间序列因果模型:Y1t = a1*Yt-1+a2*
Y1t-12+a3*
Y4t-2+a4*
Y2t-12+a0
之后再进行拟合,做多元回归线性模型测试
都用的不太多
用来分析不同变量之间是否存在滞后性相关
用来画自相关(ACF)图和偏自相关图。这两个图一般做分析的时候是要画
用来画时间序列图
用的非常少,但功能很重要,主要用在分析音频上。可以作为第二种判断周期性的方法(第一种是看ACF图)。通过频率取值最高的点对应的频率乘以数据量,得到周期
一般是在建模前进行的操作,看数据是否在季节上有周期性。不过实用性不强,这一步可以直接交给模型做判断。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。