赞
踩
相关性并不意味着因果关系” 这个道理对大家都不陌生。 我们如何科学、优雅地做一份关于 “因果关系” 数据分析呢? 在这篇文章里,我们从因果推断对于数据分析的重要性出发,和大家分享一个因果推断的经典框架、一组因果推断的必备假设和一个因果推断的基础方法。
“相关性并不意味着因果关系”,天天和数据打交道的小伙伴们都很明白这个道理。 不少数据分析的工作其实都围绕着这个问题,举一些例子:
在这些例子中,本质上,我们都是想要分析一个干预(treatment)对一个结果(outcome)有怎样的影响,想要探究其中的因果效应。大家熟悉的 A/B Test 是回答上面这些问题的黄金方式。但是,A/B Test 也有一定的局限性,例如:
鉴于 A/B Test 的种种局限性,研究如何利用手边已有的历史数据进行 “因果分析” 变得无比重要。
因果推断用的最多的模型有两个。一个是著名的统计学家 Donald Rubin 教授在 1978 年提出的 “潜在结果模型”(potential outcome framework),也称为 Rubin Causal Model(RCM)。另一个是 Judea Pearl 教授在 1995 年提出的因果图模型(Causal Diagram)。这两个模型实际上是等价的。从数据分析角度而言,个人认为潜在结果模型的数学描述更加严谨,这篇文章也使用潜在结果模型来给出因果推断的定义。
首先,我们需要定义一些符号。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。