当前位置:   article > 正文

因果推断1_sutva

sutva

相关性并不意味着因果关系” 这个道理对大家都不陌生。 我们如何科学、优雅地做一份关于 “因果关系” 数据分析呢? 在这篇文章里,我们从因果推断对于数据分析的重要性出发,和大家分享一个因果推断的经典框架、一组因果推断的必备假设和一个因果推断的基础方法。

causality_comic

WHY:为什么需要因果推断

“相关性并不意味着因果关系”,天天和数据打交道的小伙伴们都很明白这个道理。 不少数据分析的工作其实都围绕着这个问题,举一些例子:

  • 在 feeds 流里刷到一个新推荐策略的内容的用户留存更高,他们的高留存是因为这个推荐策略导致的吗,这个策略究竟对留存的提升有多大效果?
  • 上周投放了某游戏广告的用户登录率更高,他们的高登录率有多大程度是由广告带来的,有多大程度是由于他们本身就是高潜力用户?
  • ……

在这些例子中,本质上,我们都是想要分析一个干预(treatment)对一个结果(outcome)有怎样的影响,想要探究其中的因果效应。大家熟悉的 A/B Test 是回答上面这些问题的黄金方式。但是,A/B Test 也有一定的局限性,例如:

  • 需要花一定的时间实现,比较耗费人力;
  • 需要占用足量的随机流量,并且需要持续一段时间以收集数据;
  • 某些实验可能损害用户体验,例如给用户推荐一些并不匹配兴趣的内容;
  • 当可做 A/B Test 的选择太多时,往往难以全部都进行尝试。

鉴于 A/B Test 的种种局限性,研究如何利用手边已有的历史数据进行 “因果分析” 变得无比重要。

WHAT:因果推断推什么

因果推断用的最多的模型有两个。一个是著名的统计学家 Donald Rubin 教授在 1978 年提出的 “潜在结果模型”(potential outcome framework),也称为 Rubin Causal Model(RCM)。另一个是 Judea Pearl 教授在 1995 年提出的因果图模型(Causal Diagram)。这两个模型实际上是等价的。从数据分析角度而言,个人认为潜在结果模型的数学描述更加严谨,这篇文章也使用潜在结果模型来给出因果推断的定义。

首先,我们需要定义一些符号。

推荐阅读
相关标签