Logit 模型及 Stata 操作步骤_logit模型 stata

作者：你好赵伟 | 2024-08-16 17:11:58

踩

logit模型 stata

一、引言

Logit 模型是一种在社会科学、经济学和医学等领域广泛应用的统计模型，用于分析二元或多元分类因变量与自变量之间的关系。在本文中，我们将深入探讨 Logit 模型，并通过 Stata 软件进行详细的操作演示。

二、Logit 模型的基本原理

三、数据准备

我们使用 Stata 自带的数据集 auto.dta 进行演示。该数据集包含了汽车的各种特征和价格信息。

use auto.dta

四、变量选择与定义

假设我们要研究汽车价格（price）是否高于平均值（作为因变量，高于平均值为 1，否则为 0）与汽车重量（weight）、里程数（mpg）和维修记录（rep78，分类变量）之间的关系。

gen high_price = (price > mean(price))

五、Logit 模型估计

logit high_price weight mpg rep78

上述代码中，logit 命令用于估计 Logit 模型，high_price 是因变量，weight、mpg 和 rep78 是自变量。

六、代码解释

logit 命令：指定使用 Logit 模型进行估计。
high_price：二元因变量。
weight、mpg：连续型自变量。
rep78：分类自变量。

七、模型结果解读

运行上述代码后，Stata 会输出模型的估计结果，包括系数估计值、标准误、z 值和 p 值等。

例如：


Logistic regression                               Number of obs   =     74
                                                LR chi2(3)      =   35.28
                                                Prob > chi2     =    0.0000
Log likelihood = -35.678971                     Pseudo R2       =    0.4217
 
------------------------------------------------------------------------------
       high_price |      Coef.   Std. Err.      z    P>|z|     [95% Conf. Interval]
------------------+---------------------------------------------------------------
        weight    | .0028504 .0007281     3.91   0.000   .0014219  .0042789
          mpg     |  -.0853008 .0309849    -2.75   0.006    -.1456783   -.0249233
        rep78     |
              1    |  .521308  .187245     2.78   0.005    .152832   .889784
              2    |  .783005  .231878     3.38   0.001    .328561    1.23745
              3    |   1.056802  .298712     3.54   0.000    .472878    1.640726
              4    |   1.328509  .387201     3.43   0.001    .568734    2.088284
       _cons     |  -3.570085   1.288275    -2.77   0.006    -6.082728   -1.0574419
------------------------------------------------------------------------------

系数的解释：

对于 weight 变量，系数为 0.0028504，表示在其他条件不变的情况下，汽车重量每增加一个单位，价格高于平均值的概率的对数增加 0.0028504。
对于 mpg 变量，系数为 -0.0853008，表示在其他条件不变的情况下，每增加一单位的里程数，价格高于平均值的概率的对数减少 0.0853008。
对于分类变量 rep78，每个类别与基准类别（假设为类别 0）相比，系数表示该类别对价格高于平均值的概率的对数的影响。

八、预测

我们可以使用 predict 命令进行预测。

predict phat

生成的 phat 变量是预测的概率值。

九、模型评估

可以通过计算准确率、混淆矩阵、AUC（Area Under the Curve）等指标来评估模型的性能。


// 生成预测结果
gen pred = (phat > 0.5)
 
// 计算准确率
mat confusion = r(table)
scalar accuracy = (confusion[1, 1] + confusion[2, 2]) / rowsof(confusion)
di "Accuracy: " accuracy
 
// 计算 AUC
roctab high_price phat

十、稳健性检验

为了验证模型的稳健性，可以进行以下操作：

改变样本：例如，随机抽取一部分样本重新估计模型，观察结果是否相似。
增加或减少自变量：尝试加入或剔除一些自变量，看模型的结果是否有显著变化。

十一、结论

通过以上的 Stata 操作步骤，我们成功地建立了 Logit 模型，并对其进行了估计、预测和评估。在实际应用中，您需要根据数据的特点和研究问题，选择合适的自变量和模型形式，并对结果进行合理的解释和分析。

【DCM-02】二元Logit模型和Probit模型及其Stata实现 - 知乎 (zhihu.com)

【DCM-11】有序Logit模型及其Stata实现 - 知乎 (zhihu.com)

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/你好赵伟/article/detail/989216