赞
踩
silencedream的个人空间_哔哩哔哩_bilibili
人大经济论坛
1. 控制变量、中介变量与调节变量
调节变量是与控制变量都是自变量。调节变量是外来的变量,非模型的一部分,只有在证明存在干扰效果的时候才会代入。控制变量是模型的一部分,主要目的是为了得到更为精确的估计。调节变量不是研究者关注的核心自变量,而是为了澄清核心自变量与因变量的关系,即:在调节变量取不同值的情况下,核心自变量与因变量的关系有何变化。 比较一下,控制变量也是为了澄清上述关系,但控制变量的终极目标是分离出核心自变量对因变量的纯影响 ...
控制变量是模型中除了自变量之外影响因变量的其他变量(除了自变量之外的影响因素)控制变量的终极目标是分离出核心自变量对因变量的纯影响
中介变量是研究传导机制的中间变量,例如:
Reg y x | 成绩 学习时间 | 显著 |
Reg m x | 学习能力 学习时间 | 显著 |
Reg y m x | 成绩 学习能力 学习时间 | 显著 |
通过上述的三个回归,若都显著则可以说m为中介变量,即学习时间通过影响学习能力进而影响成绩,学习时间越长,则学习能力越强,从而成绩越好,因此中介变量分析实质上是对传导路径的一个分析,但是由于其三个都要显著,因此比较难找到。
调节变量是用来进行分组检验的一个变量,即证明存在干扰效果的时候才会代入,即证明当情况有变时是否还显著,例如通过对男女进行分类,再回归,各组之间进行比较分析,看是否显著性降低,从而得出学习成绩与学习时间的正相关关系是否受到性别的干扰。
中介效应
参考:https://www.jianshu.com/p/b59f123de7a8
三步法回归——完全中介,部分中介
如果第三个方程,reg y x m 反而不显著了,说明是完全中介
如果reg y x m 中x的系数比 reg y x 的要小,说明是部分中介
Sobel检验
做中介变量时通常用来判断中介变量是否显著
五种常用机制分析方法及对应文献———参考:TOP5刊上五种常用机制分析方法及对应文献
但是近年来,许多专家学者对于三步法的中介检验有争议,认为三步法导致内生性问题严重,建议大家慎用中介效应(但是这个也没有确切的结论,可以看到很多好的期刊仍在用中介效应)
Method 1:先用Y对X做回归,然后再用M对X进行回归,至于M对Y的影响,需要借助文献进行说明。
Method 2:先用Y对X做回归(也有文献同时用M对X做回归),然后再用Y对X和M做回归,此时,X的系数需要变小或变大,或显著性下降甚至不显著。
Method 3:先用M对X进行回归,然后再用Y对M进行回归,这个就是对X——M——Y两部分的影响分开进行回归。
Method 4:用X与M的交互项进行回归;或用M进行分组回归,即用异质性进行机制检验。
Method 5:中介效应分析,尤其是因果中介效应分析(causal mediation analysis),①自变量和中介变量是内生的情况咋办?放在因果中介的框架,②因果中介效应分析出现在顶刊, 是时候使用新方法了
2. 解释变量为连续变量与虚拟变量
在统计学中,变量按变量值是否连续可分为连续变量与离散变量两种。在一定区间内可以任意取值的变量叫连续变量,其数值是连续不断的,相邻两个数值可作无限分割,即可取无限个数值。反之,其数值只能用自然数或整数单位计算的则为离散变量。例如,企业个数,职工人数,设备台数等,只能按计量单位数计数,这种变量的数值一般用计数方法取得。类别变量是离散的变量。比如有关于天气的变量:晴,阴,雨。只能是其中单独一个,不存在介于两种之间的,即不能又晴又雨。
虚拟变量(DummyVariables)又称虚设变量、名义变量或哑变量,用以反映质的属性的一个人工变量,是量化了的自变量,通常取值为0或1。一般地,在虚拟变量的设置中:基础类型、肯定类型取值为1;比较类型,否定类型取值为0。
模型中引入虚拟变量的作用
1)分离异常因素的影响,例如分析我国GDP的时间序列,必须考虑“文革”因素对 国民经济的破坏性影响,剔除不可比的“文革”因素。
2)检验不同属性类型对因变量的作用,例如 工资模型中的文化程度、季节对 销售额的影响。
3)提高模型的精度,相当于将不同属性的样本合并,扩大了样本容量(增加了误差自由度,从而降低了误差方差)
虚拟变量设置的原则
在模型中引入多个虚拟变量时,虚拟变量的个数应按下列原则确定:
3. 固定效应模型
固定效应模型(fixed effects model)的应用前提是假定全部研究结果的方向与效应大小基本相同,即各独立研究的结果趋于一致,一致性检验差异无显著性。因此固定效应模型适用于各独立研究间无差异,或差异较小的研究。
4. OLS线性回归分析(多元回归分析)
注意:只有当因变量是连续变量的时候,才能用该分析,如果被解释变量是虚拟变量或者序列变量都是不可以用的
5. 随机效应——固定效应面板回归——豪斯曼检验
如何选择做固定效应还是随机效应
https://jingyan.baidu.com/article/a501d80cf183d9ec630f5e94.html
固定效应:
Reg y x cv, fe
Reg y x cv, fe r
Reg y x cv, fe cluster(code)
随机效应:
Reg y x cv, re
Reg y x cv, re
Reg y x cv, re cluster(code)
固定效应允许非观测值与X任意相关,而随机效应则不然(不允许相关,其实是认为x是外生的,如相关则会出现偏误,只解决序列相关问题),估计其他条件不变效应,普遍认为FE是更令人信服的工具。
6. 怎么安装外部命令:
ssc install 外部命令名称
如果不能安装成功,可能ssc没有包含这个外部命令,此时用findit或者search+外部命令名称 从弹出的窗口中找到需要下载的点进去,可以看到INSTALLATIONN FILES (click here to install)点击就会进行安装
参考:Stata: 外部命令的搜索、安装与使用 - 知乎 Stata Plus:连老师的 Stata 外部命令集 - 知乎下载连玉君老师的外部命令然后移动到对应的目录
7. 横向合并数据(merge):
Merge=1指master文件中没有合并到的,merge=2表示using文件中没有匹配合并到的,merge=3指成功匹配合并的
merge 1:1 stkcd year using CSMAR利润表2005-2018.dta, nogen keep(1 3)
nogen指不生成merge变量,keep(1 3)指保留merge=1和merge=3的变量,其实就是drop _merge==2
合并merge 1:1/m:1/1:m/m:m
Merge 1:1指一对一,一一对应
Merge m:1指多对一,master中有多个变量,而using中只有一个,例如:master是不同企业不同年份的一个财务信息面板数据,using是这些企业的成立日期,这个成立日期是唯一的,不会随时间变化,因此此时是merge m:1
同理1:m,就是master和using反过来
m:1 表示keyword在using文件中必须是唯一没有重复的的 1:m 表示keywords在master文件中必须是唯一没有重复的
merge m:m 指多对多
8、纵向合并(append):
将一张表延长,要求是变量Var是对应的,不然要先进行整理,如果没有对应上,stata会自动生成缺失值
Append using XXXX.dta
字符串类型与数值类型的转换:
字符串变成数值——destring var ,replace
数值变字符串 tostring ,replace
字符串的提取:substr
Gen year = Substr(变量,从哪一位开始,从哪一位结束)
注:使用这个命令前提是格式为字符串——数值变字符串 tostring ,replace
字符串的替换与分割:
替换:subinstr
Dis subinstr(“字符串整体”,“需要替换的内容”,“替换成什么”,对第几个进行替换(.表示全部替换))
分割:split
Split V1,gen(a) 自动按空格进行分割
Split V2, p(“,”)gen(a) 以逗号,为分割标准进行分割
数据格式转换(format):
Format var %14.0g
14表示显示格式的宽度,0表示显示小数点后的数字,f表示固定格式,g表示通用设定,stata会自动设定显示格式,e表示科学技术法
如何快速了解数据集——描述性统计和频率分布:
Describe(简写des)显示数据的基本情况
Summarize(sum)对变量做描述性统计(默认对所有变量做描述性统计)
Summarize,detail 获得更详细的数据
关于频率表的统计
Tabulate (tab),统计变量的频率分布
Tab foreign(y) headroom(x)——得出国产车和外国车车室数量的联合分布
给数据贴标签:
Label variable 变量名 “标签内容”
Label data “ ” 给数据贴标签
给值贴标签,给1定义为男,0定义为女
Label define a_value 1 “男” 0 ”女“
Label value a_value
可以更直观的浏览数据,但是summarize时还是数值
样本的保留与删除:
经常用于样本的筛选与剔除
删除 drop if .....将满足条件的删除
保留keep if .....将满足条件的保留
多个条件判断:
In/if
删除重复值:
Ssc install unique
Unique 变量名
例如:unique stkcd year
Duplicates tag 变量名,gen(tag1)——会生成一个tag1变量,如果重复会显示为1
Depulicates list 变量名 ——会直接显示重复样本
Duplicates drop 变量名 ,force ——删除重复的样本
基础运算(egen、均值标准差):
Egen 与 gen 的区别,都是生成变量,其中mean等函数只能通过egen生成。
怎么根据Stata回归结果判断是否显著?
P>|t|这一列的值越小,表明参数估计值越显著:小于0.01,则显著水平是1%;小于0.05,则显著水平是5%;小于0.1则显著水平是10%;一般大于0.1时,就认为统计上不显著。
内生性问题:
模型中的一个或多个解释变量与随机扰动项相关
Y=β0+β1+εi
OLS(普通最小二乘法)得到无偏估计的基本假设之一:x1与 εi不相关
那么如果相关,则出现了内生性,OLS无法得到无偏估计,结论不可靠
常见的内生性来源:
5.1 遗漏变量误差
注:遗漏变量不一定带来的内生性问题,只要解释变量与遗漏变量不相关即可
5.2 选择性偏差:自选择偏差是指解释变量不是随机选择的结果
人为或非随机的因素影响力我们的样本选择
5.3互为因果(双向因果)
其他:测量误差、动态面板等
如何解决内生性
1、工具变量法——非常强大,可以解决所有导致内生性的影响因素
缺点:IV工具变量可遇而不可求
工具变量需要满足两个比较矛盾的条件——相关性与外生性,即1.工具变量必须和内生解释变量(x)强相关 2.工具变量跟随机扰动项不相关(外生性)
2. 面板数据固定效应模型:
固定效应模型:部分解决遗漏变量带来的内生性问题
面板数据:多个个体,多个时间点的观测数据
为什么只是部分解决遗漏变量?
如果我们遗漏的变量随时间而变化,我们的固定效应模型就没办法解决这个问题了
此外还有一个问题是,如果感兴趣的是恰好是不随时间而变化的量,固定效应模型无法估计出变量系数。
3. 倾向性得分匹配(PSM):解决样本选择带来的内生性问题
见silencedream视频,还没怎么听懂
条件独立假设:
共同支撑条件:
4. Heckman两阶段回归——解决样本选择带来的内生性问题
内生变量与外生变量:
计量经济学的内外生变量由扰动项是否对解释变量有影响决定,如果有影响就是内生变量,如果没有就可以视作外生变量,即结果决定论;而宏观经济学的内外生变量直接在设计模型的时候给定,你在设计模型的时候如果考虑这个变量对模型的贡献就把他视作内生变量,如果不考虑他对模型的贡献就把他当做一个定值,视作外生变量,即方法决定论。比如你可以用无数因素(教育程度,年龄,性别...)去试图解人们的薪水,然后把无法解释的部分归因于误差,但是这个时候你发现你所用的其中一个因素和误差有着非常强的关系,那这个模型可能就是存在内生问题的。
稳健性检验:
改变自变量、因变量的度量方式
改变模型是否仍然显著(例如换成Tobit\Probit模型,例如加入滞后项的动态面板模型等等)
改变样本是否仍然显著(例如不缩尾的样本是否显著,例如剔除出金融危机、股灾的样本后是否仍然显著等)
考虑内生性问题的解决方案都可以加入稳健性检验中
控制变量不显著能不能删?
不能,1.可能它是对y有影响的,只是被其他变量稀释掉了,2.不显著不代表不会对其他参数估计带来影响(内生性),使得估计量是有偏的
如果出现大部分的控制变量都不显著,应该考虑多重共线性的问题,出现多重共线性的现象(VIF R^2值很高,F检验显著)
什么叫估计量的无偏性,一致性与有效性?
样本的平均值近似的服从正态分布,对样本的均值的平均值再求一次均值的话会等于总体的均值,就是无偏估计量,不相等就是有偏估计量
方差——有效性
方差越小,说明其是越有效的
有效性与无偏性可能需要取舍
一致性:随着抽样样本数增加,方差会慢慢依概率收敛到真实的值
一致性最重要,最基本的要求,内生性是保证OLS为一致估计量的重要条件
如何判断是否具有多重共线性
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。