赞
踩
来源:集智俱乐部
本文约3500字,建议阅读8分钟
本文尝试整理近年来关于因果推断的代表性研究,梳理出几个典型的探索方向。
[ 导读 ]自从休谟喊出“因果是人类的错觉”,科学家就再也停不下对因果关系的探寻。本文尝试整理近年来关于因果推断的代表性研究,梳理出几个典型的探索方向。
在现代科学到来之前,人们从经验出发,通过归纳获得知识。归纳方法受限于观测,无法产生突破性成果。而现代科学则是先从事实归纳出假设、模型,再根据数据去验证模型是否正确。而所谓的模型,则是对因果关系的一组假设。现代科学的方法论,追根究底就归结于到因果关系的判定。
2002 年,加州大学伯克利分校教授亨利·布雷迪撰文整理了因果推断的各种经典理论,并根据不同假设,将其整理为:新休谟理论、反事实理论、操控实验理论、机制理论这4类,自然科学和社会科学中许多针对因果关系的检测方法,都可以归于其中。
论文题目:
Models of Causal Inference: Going Beyond the Neyman-Rubin-Holland Theory
论文地址:
http://www-personal.umich.edu/~wmebane/midx2003.pdf
而从计算视角,近年来还兴起了利用“柯尔莫哥洛夫复杂度”和“压缩感知”的新方法。
本文从这几个角度出发,简要梳理近年来关于因果关系检测,特别是复杂系统中因果检测的代表性研究。
1. 休谟之问:如何证明
是因果关系而非相关关系
哲学家大卫·休谟最早深刻思考“因果关系”:人们所谓的因果,实质上是对“相关关系”的归纳推理,而相关性无法保证因果性。休谟有言——“因果关系”是我们的错觉。
之后,以恩斯特·马赫、伯特兰·罗素等人为代表的物理学家和数学家,改造了休谟的理论,提出了新休谟式(New Humean)的框架——X如果是Y的原因,那么X的出现,应该是Y出现的充分条件。
这一类的典型研究是 2012 年 Science 刊载的一篇针对复杂生态系统中因果关系检测的论文。文中提出了收敛交叉映射算法,综合考虑 X 推出 Y、从 Y 倒推 X,来判断其因果关系,效果良好。这类方法所量化的,不是变量 X 和变量 Y 之间因果关系的强弱,而是它们之间存在因果关系的可能性。
论文题目:
Detecting Causality in Complex Ecosystems
论文地址:
https://science.sciencemag.org/content/338/6106/496
相关阅读:
Science经典论文:如何检测复杂生态系统中的因果关系?
http://mp.weixin.qq.com/s?__biz=MzIzMjQyNzQ5MA==&mid=2247500394&idx=1&sn=06c5c3579b538ff8d960af0db6edbba5&chksm=e89798e7dfe011f1a01f720f6d0bf67486534a51ca23a1912864d7302e1c80eabcdef7df7f34&scene=21#wechat_redirect
另一个典型的方法,是2019 年 11月 的 Science Advances 一篇论文中提出的 PCMCI 算法。复杂系统中存在大量非线性相互关系,因果作用有较长时间滞后,并且要素之间只在部分情况下会出现因果关系。针对这些特点,这套算法,既考虑到“错误检出因果关系”,也考虑到“未检出因果关系”,因而模型具有更强的检测能力。
图 1:将PCMCI算法应用到全球气候数据中,检测WPAC(西太平洋)、CPAC(中太平洋)、EPAC(东太平洋)、ATL(大西洋)之间的因果关系
上图展示了该方法在全球气象数据中的应用。图中的每个圆圈代表的某个地区的气候系统,图片下方的颜色深浅代表了因果性/相关性的强弱。左图展示了不同地区之间的相关关系,右图是 PCMCI 算法从相关关系中检测出的因果关系。可以发现,因果箭头远远少于相关箭头,且相关性的强弱不等于因果性的强弱,这说明了 PCMCI 算法能够从复杂系统内的众多关系中,找出真正的因果关系。
论文题目:
Detecting and quantifying causal associations in large nonlinear time series datasets
论文地址:
https://advances.sciencemag.org/content/5/11/eaau4996
2. 反事实——
思想实验中的因果推断
如果X没有发生,那么是不是Y就一定不会发生?这样假设事件没有发生的思想实验,就是反事实型(count factual)的因果关系检测。
哲学家大卫·刘易斯,完善了反事实条件语句,把反事实因果推断的方法推向正轨。这套方法的优点,在于其能够通过思想实验,来探讨因果关系,而不需要真实场景。
英国历史学家尼尔·弗格森写《虚拟的历史》这本书,探讨历史上的大事件究竟是偶然还是必然。书中是假设在某个关键节点上,某件事并没有发生,历史的演化会是怎样。这就是反事实的思想实验方法。
中文屋的思想实验,则是美国哲学家约翰·希尔勒提出另一案例。假设一个不懂中文的人,藏在屋里,Ta能够通过执行某个关于“如何进行中文对话”的规则系统,骗过人们,让人们误以为Ta理解中文。如果你不认为中文屋里的Ta理解中文,就会形成反事实,从而反驳了图灵测试中的因果假设——因为电脑可以模拟人脑的某些特定功能,所以可以认为电脑具有人类的智能。
3. 操控实验——
如何用实验分析因果关系
随机双盲实验,是医学界最常用的因果检测方法。常用语药物效果检测,通过将人群随机分为两组,使两组在各种评价指标上都尽可能相似,而唯一不同的是待考察的原因,进而根据两组之间的区别判定因果关系。
互联网公司做的AB测试,也是通过给不同组的用户展示不同样式的网页,来判定不同的网页设计、文章标题等因素和点击率之间的因果关系。
现实中还有很多场景无法进行随机双盲实验,但可以通过观察,看到不同行为产生不同的影响。美国统计学家唐纳德·鲁宾,提出了“虚拟事实模型”,通过计算来检测因果关系——根据观察结果,用算法模拟进行双盲实验,看会得到怎样的因果联系。
专注因果推断研究的学者朱迪亚·珀尔则质疑鲁宾的虚拟事实模型,他认为自己的因子图模型(casual diagram)更清晰。但数学家已经证明,珀尔的模型其实是和鲁宾的模型是等价的,只是表达形式不同。
图 2:计算机科学家,图灵奖得主朱迪亚·珀尔和他的《为什么》
4. 发现机制——
从原因怎样一步步推到结果
因果关系,无论怎样研究,都绕不改因素之间内部的作用机制。找到了一条从原因到结果的影响机理,才能真正判断因果关系。
比如针对“吸烟是肺癌的原因吗”这个大问题,一方面,研究者会考察被试人员在吸烟后,肺部组织会发生怎样的变化,这些变化又是如何导致癌细胞更容易出现的。另一方面,研究者提取出香烟中的尼古丁,再通过体外实验,最终确定烟草中的尼古丁致癌。类似的研究思路,也被应用在寻找基因变异和疾病之间的关系上。
2019 年初,新刊 Nature Machine Intelligence 的一篇论文,提出一套通用的、无监督且无参数的算法,能够通过反卷积操作提取模型、进行因果聚类,在对元胞自动机数据和图网络数据的处理中,都性能良好。这在机器学习传统统计方法之外,探索了如何教会机器理解因果关系。
相关阅读:
Nature机器智能:如何基于算法信息破解因果推断难题
http://mp.weixin.qq.com/s?__biz=MzIzMjQyNzQ5MA==&mid=2247495957&idx=1&sn=24da64035691500936e9cb6505f60bf1&chksm=e897ab98dfe0228e5b26f7fe3e6dd9a5eadb36c66ab217f58c089325ec4d7a27b977fad88d3d&scene=21#wechat_redirect
论文题目:
Causal deconvolution by algorithmic generative models
论文地址:
https://www.nature.com/articles/s42256-018-0005-0
计算理论的思想,近年来也被引入了因果关系研究中。2019 年 10 月发在 arxiv.org 的一篇预印本是这类研究的典型,研究者基于条件概率下的 Kolmogorov 复杂度不同,推导变量之间的因果关系。
论文题目:
Causal Inference via Conditional Kolmogorov Complexity using MDL Binning
论文地址:
https://arxiv.org/abs/1911.00332
5. 压缩感知——
因果关系推断新方向
利用压缩感知方法,研究因果关系,是新兴的一个研究方向。压缩感知又称压缩采样或稀疏采样,是信号处理领域的概念,指通过采用更少的信息、来尽可能逼真地重现原始数据中的模式。经过压缩,噪音和非必要信息被过滤,数据中的因果关系能够更容易被找到。
根据基因与环境的相互作用数据,找到影响人身高的基因突变位点,该方法能够找到70%-100%的之前传统方法(全基因组关联分析)找到和身高相关的位点,通过改变L1正则项的权重(压缩的比例),还能够在寻找相关位点的的过程中,发现能找到的位点数目突然增多(相变现象)。
论文题目:
Applying compressed sensing to genome-wide association studies
论文地址:
https://www.ncbi.nlm.nih.gov/pmc/articles/PMC4078394/
对于时间序列的数据,可以采用网络重构的方法找到因果关系,而重构网络的过程,本质上是对信息的压缩过滤。在 2014 年发表于 Nature Communications 一篇论文中,研究者基于传染病传播的时间序列数据,使用相对较少数据,且在部分节点无法获取数据的条件下,用重构后的网络,去除数据中的噪声,找出了传播源。
论文题目:
Reconstructing propagation networks with natural diversity and identifying hidden sources
论文地址:
https://www.nature.com/articles/ncomms5323#Sec1
找到因果关系,对于构建可解释的机器学习模型至关重要。要解释模型的决策,模型要能回答反事实的what if型问题,这需要机器能构建因果关系模型。
2019 年 10 月发表在 Physical Review Letters 的一项研究,借助压缩感知,同时参考了人脑认知设计神经网络架构,让机器学到了天体运行背后的因果规律。
图 3:a)人类的思考方式,从观察到抽象表征出模型,再基于模型回答相关问题,b)仿照人脑认知的神经网络架构,其中假设对观察的表征要尽可能简洁
研究者设计了两个神经网络,一个发现规律(用更少的神经元表征数据中的规律),一个解释规律(找到因果模型),在没有进行任何初始假设的前提下,根据太阳系行星的运动轨迹的数据,通过压缩感知,发现了天体之间的关系——地球绕着太阳转。
论文题目:
Discovering physical concepts with neural networks
论文地址:
https://journals.aps.org/prl/accepted/9e07eY09T2e1fd7f88ae46166090ef41fa6ad4c34
因果推断的具体方法,有很多种,然追根溯源,都可以追溯到某一种朴素的假设上。这篇文章整理了对因果推断方法近年来的一些代表性研究,希望帮你建立对因果推断研究的粗略认识。
编辑:王菁
校对:王欣
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。