赞
踩
作者:黄欣怡 (中山大学)
邮箱:eugenehuangcheeks@163.com
「Source:MULTINOMIAL LOGISTIC REGRESSION | STATA DATA ANALYSIS EXAMPLES」
连享会计量方法专题……
在实证研究中,我们会遇到被解释变量为类别变量的情形。在部分情境下,被解释变量为非此即彼的二元选择变量 (如是否考取大学、是否结婚等),即我们熟知的0-1
变量,此时应采用二元 Logit 模型进行估计;但在很多情形中,被解释变量涉及 3 种以上的类别变量。
例如:
在这些情境下,我们需要采用多元 Logit 模型进行估计。
多元 Logit 模型实质上可视为二元 Logit 模型的拓展,具体二元 Logit 模型的使用可参考阅读 Stata 连享会 推文 : Logit 模型简介。两者的差异在于,二元 Logit 模型的被解释变量只有 0 和 1 两个取值,而多元 Logit 模型涉及了被解释变量有多个取值的情形。
多元 Logit 模型可视为对被解释变量中各类选择行为两两配对后构成的多个二元 Logit 模型实施联合估计 ( simultaneously estimation )。模型设定具体如下:
l n ( π i j π i b ) = l n ( P ( y i = j ∣ x ) P ( y i = b ∣ x ) ) = x i ′ β j ln\left(\frac{\pi_{ij}}{\pi_{ib}}\right) = ln\left(\frac{P(y_i=j\,|\,x)}{P(y_i=b\,|\,x)}\right) =x'_i\beta_j ln(πibπij)=ln(P(yi=b∣x)P(yi=j∣x))=xi′βj
其中, b b b为选定的基准组,设定 J J J为类别变量包含的种类总数,则 j = 1 , 2 , 3 … , J j=1,2,3\ldots ,J j=1,2,3…,J。当 j = b j=b j=b时,等式左侧为 l n 1 = 0 ln1=0 ln1=0,则 β b = 0 \beta_b=0 βb=0。即某种选择相对自己的 log-odds 始终为 0,致使该组别对应的任何解释变量系数也必然为0。
通过求解这 J J J个方程,可以得到每种选择的预测概率:
π i j = P ( y i = j ∣ x ) = e x p ( x i ′ β j ) ∑ m = 1 J e x p ( x i ′ β m ) \pi_{ij}=P(y_i=j\,|\,x) =\frac{exp(x'_i\beta_j)}{\sum_{m=1}^J{exp(x'_i\beta_m)}} πij=P(yi=j∣x)=∑m=1Jexp(xi′βm)exp(xi′βj)
在因变量含有 J J J个组别并有 k k k个解释变量 (包含常数项) 的多元 Logit 模型中,我们共有$ (J-1)\times k$个参数,这使得模型的解读更为复杂。首先,Logit 模型估计的关键在于选定基准组 ( base group ),所有系数均是相对于基准组进行估计;其次,我们通常从概率的角度出发对 Logit 模型进行解读。与二元 Logit 模型相似,基于胜算比 (odds) 对模型参数进行解释能够使模型更加简明易懂。
我们假设选定的基准组 ( base group ) 为第 1 组,那么第 j j j个组别相对于基准组的胜算比 (odds) 可以表示为:
π i j π i 1 = P ( y i = j ∣ x ) P ( y i = 1 ∣ x ) = e x p ( x i ′ β j ) j = 2 , … , J \frac{\pi_{ij}}{\pi_{i1}}= \frac{P(y_i=j\,|\,x)}{P(y_i=1\,|\,x)} =exp(x'_i\beta_j) \qquad j=2,\ldots ,J πi1πij=P(yi=1∣x)P(yi=j∣x)=exp(xi′βj)
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。