当前位置:   article > 正文

常用计量经济模型汇总/附案例教程_计量模型

计量模型

一、时间序列分析

时间序列模型就是利用时间序列的相关性质建立起来的,是一种先进的统计方法,当有足够多的数据来构成一个时间序列,此时建立起来的时间序列模型通常可以得到很好的预测效果。

1、单位根检验(ADF)

在使用很多时间序列模型的时候,如 ARMA、ARIMA,都会要求时间序列是平稳的,所以一般在研究一段时间序列的时候,第一步都需要进行平稳性检验,除了用肉眼检测的方法,另外比较常用的严格的统计检验方法就是ADF检验,也叫做单位根检验。

案例:基于某杂志 1995-2019 年的印刷量数据,判断其是否平稳。

ADF 检验表 ​

在差分为 1 阶时,显著性 P 值为 0.000,水平上呈现显著性,拒绝原假设,该序列为平稳的时间序列。

2、差分分析

差分,本质上就是下一个数值减去上一个数值,主要是消除一些波动使数据趋于平稳,非平稳序列可通过差分变换转化为平稳序列。不过一般可以通过 ADF 检验来量化评估数值差分后,是否呈现稳定性

案例:同上(注意:选定差分阶级,一般来说超过二阶差分在统计学上没有参考意义)

1)原始序列图

主观来看,原序列图有个递增的趋势,是非平稳序列。我们需要通过差分将非平稳原序列图转换成平稳序列。

​2)一阶差分图

当时间间距相等时,用下一个数值,减去上一个数值 ,得到一阶差分。

主观来看,一阶差分序列在数值 1.5 上下波动,没有明显的递增递减趋势,初步判断一阶差分序列为平稳序列。为了避免人为主观性判断,可以通过 ADF 单位根检验去判断一阶差分序列是否平稳。

3、(偏)自相关分析(pacf/acf)

自相关(ACF)是指序列与其自身经过某些阶数滞后形成的序列之间存在某种程度的相关性,而偏自相关函数(PACF)是在其他序列给定情况下的两序列条件相关性的度量函数。一般来说(偏)自相关用于时间序列分析 AR、MA 的 p、q 进行定阶。

案例:基于 5 年每月商品的销售量,已知一阶差分序列平稳,作一阶差分序列的(偏)自相关图。

1)模型残差自相关图(ACF)

由图可知,一阶和三阶自相关系数很明显地大于 2 倍标准差范围,且自相关系数衰减为小值波动的过程比较缓慢或非常连续,我们可以判断自相关图为拖尾。

2)模型残差偏自相关图(PACF)


由图可知,一阶和二阶偏自相关系数很明显地大于 2 倍标准差范围,自一阶偏自相关系数后,其余偏自相关系数都在 2 倍标准差范围以内,且二阶后偏自相关系数衰减为在零附近小值波动的过程非常突然。我们可以判断偏自相关图为截尾。

4、时间序列分析(ARIMA)

时间序列是按照一定的时间间隔排列的一组数据,其时间间隔可以是任意的时间单位,如小时、日、周月等。通过对这些时间序列的分析,从中发现和揭示现象发展变化的规律,并将这些知识和信息用于预测。比如销售量是上升还是下降,是否可以通过现有的数据预测未来一年的销售额是多少等。

模型基本步骤

  1. 序列平稳化检验,确定d值(ADF 检验,对于非平稳时间序列要先进行 d 阶差分,转化为平稳时间序列)
  2. 确定p值(PACF)和q值(ACF)
  3. 拟合ARIMA模型 (p,d,q)
  4. 预测未来的值

1)模型参数表

由于通过自相关分析和偏自相关分析来判断 ARIMA 的参数存在人为主观性,SPSSPRO 基于 AIC 信息准则自动寻找最优参数,模型结果为 ARIMA 模型(0,1,1)检验表,基于字段:年度销量,从 Q 统计量结果分析可以得到:Q6 在水平上不呈现显著性,不能拒绝模型的残差为白噪声序列的假设,同时模型的拟合优度 R2 为 0.981,模型表现优秀,模型基本满足要求。

2)模型检验表

基于字段年度销量,SPSSPRO 基于 AIC 信息准则自动寻找最优参数,模型结果为 ARIMA 模型(0,1,1)检验表且基于 1 差分数据,模型公式如下: y(t)=4.996+0.671*ε(t-1)

3)时间序列预测表 ​​

SPSSPRO:时间序列(ARIMA)案例超详细讲解197 赞同 · 21 评论文章​编辑

5、GARCH模型

在现代高频金融时间序列中,数据经常出现波动性聚集的特点,但从长期来看数据是平稳的,即长期方差(无条件方差)是定值,但从短期来看方差是不稳定的,我们称这种异方差为条件异方差。传统的时间序列模型如ARIMA模型识别不出来这一特征。GARCH模型能模拟时间序列变量的波动性的变化,解决了传统的计量经济学对时间序列变量的第二个假设(方差恒定)所引起的问题。

案例:对某股票的收益率使用GARCH模型对其波动状况进行研究

1)平稳性检验

该序列检验的结果显示,基于变量收益率,显著性p值为0.000***,水平上呈现显著性,拒绝原假设,该序列为平稳的时间序列。

2ARCH 效应检验

  • 若是只有少量滞后阶数的 p 值小于显著性水平 0.05 时,说明存在短期自相关,则可以建立 ARCH(q) 模型。
  • 若是较多滞后阶数的p值小于显著性水平 0.05 时,说明存在长期自相关,则可以建立 GARCH 模型。若是存在长期自相关,一般建立GARCH(1,1) 足以,因为GARCH模型的实质是在ARCH上增加了异方差函数 q 阶自相关而形成,即相当于 ARCH(q) 的 q 是无限值。

由表格可知,较多滞后阶数的p值小于显著性水平 0.05 ,说明存在长期自相关,直接建立GARCH(1,1)-norm模型。

3模型参数估计结果表

稳定的 GARCH 模型需要满足:RESID项的参数值和GARCH项的参数值要求都大于零;RESID项(也就是ARCH项)和 GARCH 项的所有参数加和要求小于1。

  • RESID 项的 p<0.05,呈现显著性,说明序列具有波动集簇性,即小波动后跟着小波动,大波动后跟着大波动。
  • GARCH 项的 p<0.05,呈现显著性,说明序列波动的记忆性越强。
  • 自由度项的 p <0.05,呈现显著性,说明序列数据分布拟合较好。

极大似然值和 AIC 可以用来选择模型:

  1. 极大似然值越大,模型较优。
  2. AIC 值越小,模型较优。

所以,建立的GARCH(1,1)-norm模型是稳定的。

4标准残差纯随机性检验

若有较多滞后阶数的p>=0.05 时,标准残差满足随机性,说明 GARCH 很好地提取了序列的波动情况,GARCH 模型是有效的。

SPSSPRO:时间序列进阶(ARCH&GARCH)11 赞同 · 1 评论文章​编辑

6、格兰杰因果检验

格兰杰检验是干什么的?——分析变量之间是否存在因果关系

格兰杰检验的前提条件?——时间序列平稳

格兰杰检验不成立的意义——不表示X和Y之间无因果关系

格兰杰因果检验用于检验一组时间序列是否为另一组时间序列的原因。如果说A是B的格兰杰原因,则说明A的变化是引起B变化的原因之一。

案例:根据 VAR 模型的最优滞后阶数 5,来探究某公司产品销售额与引入投资额的因果关系。

1)ADF检验

基于变量销售额,显著性P值为 0.855,水平上不呈现显著性,不能拒绝原假设,该序列为非平稳的时间序列。

基于变量投资额,显著性P值为 0.949,水平上不呈现显著性,不能拒绝原假设,该序列为非平稳的时间序列。

尽管以上两个序列都不满足平稳性,理论上是不适合格兰杰因果检验的,但是,两个序列之间是满足协整关系的,具有长期均衡性,也是可以进行格兰杰因果关系检验的。

2)格兰杰因果关系检验结果表

基于字段投资额与销售额,显著性P值为0.148,不呈现显著性,不能拒绝原假设,投资额不可以引起销售额变化。

基于字段销售额与投资额,显著性P值为0.000***,呈现显著性,拒绝原假设,销售额可以引起投资额变化。

值得注意的是,格兰杰因果关系检验的结论只是一种预测,是统计意义上的“格兰杰因果性“,而不是真正意义上的因果关系,不能作为肯定或否定因果关系的根据。

SPSSPRO:时间序列计量经济学模型:格兰杰因果关系检验30 赞同 · 1 评论文章​编辑

7、VAR向量自回归模型

向量自回归模型把系统中每一个内生变量作为系统中所有内生变量的滞后值的函数来构造模型,从而实现了将单变量自回归模型推广到由多元时间序列变量组成的“向量”自回归模型,用于估计多个变量之间的动态关系。

VAR模型常用于预测相互联系的时间序列系统以及分析随机扰动对变量系统的动态影响,主要应用于宏观经济学。是处理多个相关经济指标的分析与预测中最容易操作的模型之一。

案例:基于 VAR 向量自回归模型对某地区的制造业、农业、旅游业三者之间的发展进行互动关系分析。

1)ADF 检验

基于变量制造业、农业、旅游业,显著性 P 值为 0.015**,水平上呈现显著性,拒绝原假设,该序列为平稳的时间序列。

2)不同滞后阶数的比较

由评价指标的结果,滞后阶数为 2 的时候有着更多的*号,滞后阶数建议选为 2 阶,即建立 VAR(2)模型。

3)模型参数估计表

制造业=-0.02*制造业(-1)-0.255*制造业(-2)-0.062*农业(-1)+0.119*农业(-2)+1.097*旅游业(-1)+0.43*旅游业(-2)+0.465

以此类推

4)VAR 模型稳定性检验

所有的点都位于单位圆内,由此可判断 VAR 系统是稳定的,模型可以进一步做脉冲响应分析和方差分解。

5)脉冲响应分析

它描述的是 VAR 模型中的一个内生变量(冲击变量)的冲击给另一个内生变量(受冲击变量)所带来的影响。当 x 在受到随机扰动项的一个单位的正向冲击时,(因为 x 和 y 是有关系的),y 的反映路径。

由脉冲响应图,可以看到两方面的信息:响应趋势和响应时长

举个例子,假设向量自回归系统中所有内生变量对制造业的一个正向冲击后,制造业的一个反映。

制造业对自身的影响出现在前五期,从第六期开始就已经在逐渐收敛于 0 了。

农业对制造业的由负响应变为正响应,并且在第 10 期还没有明显的收敛,说明农业对制造业产生了稳定持久的影响。

在第二期和第三期中,旅游业对制造业的影响是相对较大的,从第四期开始对制造业的影响逐渐收敛。

3.26 方差分解结果表

可以看到,在第一期,制造业的波动全受自身影响,且随着期数的增大,会有农业和旅游业对其产生微小影响,但主要还是受自身影响地更多。

SPSSPRO:时间序列分析|VAR向量自回归17 赞同 · 1 评论文章​编辑

二、进阶回归分析

1、稳健回归

传统的线性回归的模型,都是基于最小二乘法来实现的。但是,当数据样本点出现很多的异常点,这些异常点对回归模型的影响会非常的大,传统的基于最小二乘的回归方法将不适用。

稳健回归(RANSAC),用于当线性回归(OLS)遇到样本点存在异常点的时候,用于代替最小二乘法的一个算法。同时稳健回归还可以用于异常点检测,或者是找出那些对模型影响最大的样本点

案例:通过自变量(房子年龄、是否有电梯、楼层高度、房间平方)拟合预测因变量(房价),有些样本存在虚假交易、炒房等行为,即为异常样本,不能使用常见的最小二乘法 OLS 回归分析,需要使用稳健回归(RANSAC)模型。

1)稳健回归(RANSAC)

稳健回归对残差赋予权重,因此 R² 与 F 值已经丢失原有的意义,不具有参考意义,可以不进行分析。

相较于线性回归分析结果(如下表):

稳健回归认为,楼层对房价的负面影响没有那么大,线性回归可能是受到了虚假交易、炒房数据的极端值影响。

模型的公式如下: 房价(万)=-43.795+2.075 × 房间平方(m2)-0.802 × 楼层(层)+0.759 × 房龄(年)+48.33 × 配套电梯_1.0

SPSSPRO:线性回归有离群值也不怕?稳健回归8 赞同 · 0 评论文章​编辑

2、分位数回归

普通线性回归模型关注的是均值,研究的是在某些解释变量在取值固定的条件下响应变量的期望均值,模型估计方法是最小二乘法,使各个样本残差平方和(MSE)最小。且只能够获得“在控制一系列干扰因素后,自变量增加一个单位,因变量(的均值)增加多少”这样的结果。

然而,普通最小二乘法处理异常值是将它们平方,平方会显著增加异常值对平均值等统计数据的巨大影响,如果我们不仅希望研究响应变量的期望均值,而且还想知道其对不同分位数上因变量的影响,这时候就需要分位数回归了。

分位数回归既能研究在不同分位点处自变量 X 对于因变量 Y 的影响变化趋势,也能研究在不同分位点处的哪些自变量 X 是主要影响因素。原理是将数据按因变量进行拆分成多个分位数点,研究不同分位点情况下时的回归影响关系情况。

案例:建立分位数回归来分析产品质量、广告投放对产品销售的影响。

1)分位数回归结果表

可从两方面来进行分析:

  • 在不同分位数处自变量对因变量的回归系数呈现的变化趋势。横向来看表格,比如,对于产品质量,它的回归系数随着分位数的增大而不断增大,这说明随着产品质量的不断提高,对产品销售的影响逐渐增大。
  • 在不同分位数处各个自变量的显著性。纵向来看表格,对于某个分位点,如0.5分位点,两个自变量的系数都是显著的(p值小于0.05),说明广告投放和产品质量都对销售额有影响。

2)分位数回归系数及其置信区间

对于变量-广告投放,从分位数0.2起,广告投放对产品销售来说有明显的提升,并且从分位数0.2-分位数0.9过程中,广告投放对产品销售的影响较为平稳。由此我们可以得到结论,广告投放资源的0.2分位点处就能得到对销售有利的影响,且在0.4分位点就能达到最高影响销售的力度,没必要花到最大的广告投放资源。

对于变量-产品质量,分位点的回归系数整体上是逐渐增加的,并且在0.9分位点处对销售的影响是最高的,这说明随着产品质量的不断提高,对产品销售的影响逐渐增大。

SPSSPRO:分位数回归-Quantile regression26 赞同 · 2 评论文章​编辑

3、面板模型

面板模型是基于各样本(个体项)在时间序列(时间项)上组成的数据,综合样本信息来研究自变量 X 对因变量 Y 的影响。

面板数据可以看做为时间序列与截面混合数据,是截面上个体在不同时点重复观测数据,因此它是二维数据。

案例:根据 10 个地区(个体项)不同年份(时间项)的幸福度(因变量),以身体健康水平、受教育水平、经济水平、情感支持为自变量,建立面板模型。

1)模型选择

综上考虑,这里选取FE模型。

三个检验是为了确定个体固定效应的存在,而不针对于时间固定效应。若是想检验时间固定效应是否存在,建议线性回归最小二乘方法,将时间项化成哑变量纳入模型中,如果时间项基本均呈现出显著性,说明可以考虑时间固定效应。若是证明既存在个体固定又存在时间固定,那么就可以建立用个体-时间双向固定效应模型。

2)面板模型结果

由于在之前的检验中选择了 FE 固定效应模型,所以这里只对该模型的估计结果进行分析(其他两种模型SPSSPRO也有展示)。FE 固定效应模型的 F 检验结果显示,显著性 p 值为 0.003***,水平上呈现显著性,拒绝原假设,因此模型是有效的。

SPSSPRO:【SPSS】一文读懂面板模型选择24 赞同 · 3 评论文章

4、两阶段回归

标准线性回归模型无法解决内生性问题(内生性问题通常由 X 变量遗漏、X->Y 时 X 与 Y 没有相关关系、XY 双向影响三类产生),此类问题一般采用两阶段回归解决,其分两个阶段进行:

第一阶段,被解释变量(内生变量)与解释变量(工具变量、外生变量)进行回归,得到内生变量的拟合值;

第二阶段,被解释变量(因变量)与解释变量(内生变量的拟合值、外生变量)进行回归。

案例:想要研究影响工资收入的因素,我们根据理论知识,选用能力、受教育年限、是否居住于大城市、在现单位工作年限作为自变量。

但是我们很快面临了一个问题,就是这个能力变量无法获得,因为一个人的能力我们很难了解,也很难衡量,这就是遗漏变量问题。

解决方法:我们可以引入代理变量的概念,选择智商作为“能力”的一个代理变量, 智商解释了能力的一部分,这个是符合常理的,但由于智商不能完全度量能力,依旧是存在内生性问题。所以选用智商作为内生变量,并且由理论基础可以知道,在校成绩、母亲受教育水平与智商相关,与收入相关不大,由此选用这两个因素作为工具变量,建立两阶段回归。

1)内生性检验

上表格展示了内生性检验结果,显著性 P 值为 0.015**,水平上呈现显著性,拒绝原假设,选中的内生变量中具有内生性。

2)过度识别检验

上图展示了过度识别检验结果,显著性 P 值为 0.758,水平上不呈现显著性,不能拒绝原假设,工具变量全为外生。

3)两阶段回归结果

由两阶段回归估计结果可知,wald值为299.209,其显著性P值为0.000***,呈现显著性,拒绝原假设,说明解释变量中至少有一个变量会对被解释变量产生显著影响。

SPSSPRO:SPSS内生性问题之两阶段回归20 赞同 · 0 评论文章​编辑

5、GMM估计

GMM 估计和 TSLS 两阶段最小二乘回归都用于解决内生性问题的一种方法,如果存在异方差 GMM 的效率会优于 TSLS,但通常情况下二者结论相似,很多时候研究者会认为数据或多或少存在异方差问题,因而可直接使用 GMM 估计。

案例:同上

1)内生性检验

上表格展示了内生性检验结果,显著性 P 值为 0.022**,水平上呈现显著性,拒绝原假设,选中的内生变量中具有内生性。

2)过度识别检验

上图展示了过度识别检验结果,显著性 P 值为 0.732,水平上不呈现显著性,不能拒绝原假设,工具变量全为外生。

3)GMM 估计结果

上表格展示了 GMM 估计的参数结果及检验结果,wald 值为 270.913,其显著性 P 值为 0.000***,水平上呈现显著性,拒绝原假设,说明解释变量中至少有一个变量会对被解释变量产生显著影响。

SPSSPRO:【SPSS】面板GMM估计3 赞同 · 0 评论文章​编辑

6、双重差分DID(倍差法)

双重分析法的原理是使用观测数据模拟实验研究设计,其基本思路是将调查样本分为两组:一组为被政策影响组,即实验组,一组为未被政策影响组,即对照组。首先计算实验组在政策前后某个指标的变化量,再计算对照组在政策前后同一指标的变化量,然后计算上述两个变量的差值,从而反映政策的净影响。

案例:中国部分地区在1994年实验组颁布了一项政策,而其他地区没有颁布,试用DID法分析政策效果。

DID模型结果

从双重差分项Diff-in-Diff来看其显著性P值为0.088*,大于0.05不呈现显著性,故不拒绝原假设,认为政策干预无效。系数为-2634555497.543,系数小于0,认为政策的效果为负向。

特别注意:DID分析在这一步已经结束,后续结果为平行趋势假设检验。

声明:本文内容由网友自发贡献,转载请注明出处:【wpsshop】
推荐阅读
相关标签
  

闽ICP备14008679号