当前位置:   article > 正文

GRADIENT-BASED NEURAL DAG LEARNING

gradient-based neural dag learning

研究问题

提出了一种基于梯度的DAG的学习算法

背景动机

  • 因果图最好的学习方式是通过干预,但干预往往是难以获得的,替代方式是从观察数据中识别出来
  • 原始的NOTEARS方法只能处理线性关系,论文使用神经网络推广到非线性关系
  • 之前基于连续约束优化的DAG方法没有与传统的启发式贪婪算法作比较,论文补充了这一部分实验

模型思想

对每个变量 X j X_j Xj,学习一个有L个隐藏层的全连接神经网络,表示为在这里插入图片描述

对第j个神经网络在这里插入图片描述,其输入为将原始向量X的j分量全部变为0之后得到的在这里插入图片描述,其输出为在这里插入图片描述,也就是 X j X_j Xj对应的分布族的参数向量,输出和输入的对应关系如下图所示,在具体实验中,模型只输出一个值,即高斯分布的均值:

在这里插入图片描述

对每一个模型j,其编码的其实是条件概率密度函数在这里插入图片描述,通过利用邻接矩阵约束其乘积构成一个联合概率分布,也就是在这里插入图片描述积分的结果为1来确保可以学习到一个DAG

模型方法

  • 神经网络连通性

定义一个神经网络中的计算路径为神经网络路径,例如在一个有两个隐藏层的神经网络中,从输入i到输出k的计算路径为在这里插入图片描述,如果路径中至少有一个权重是0,那么该路径为不活跃的。如果对于任意的h1、h2,所有路径都是不活跃的,也就是所有路径积的和为0,那么输出k不会依赖于输入i。

这等价于计算以下连通性矩阵,即在这里插入图片描述

如果在这里插入图片描述,则输出k不会依赖于输入i

  • 带权邻接矩阵

在这里插入图片描述

无环约束写作

在这里插入图片描述

  • 优化求解

最大似然优化问题可以写作:

在这里插入图片描述

将该问题分解为子问题,并引入拉格朗日增广

在这里插入图片描述

  • 防止过拟合的策略
    • 无法进一步优化时,提前终止训练
    • 使用一种有隐式正则化效果的随机梯度下降算法
    • 应用CAM中的最后修剪步骤来去除伪边。该步骤对每个节点对其父节点进行回归,并使用显著性检验来决定保留或不保留个父节点。
    • 运用先验邻居选择算法,选择潜在的父节点

实验部分

  • 模拟数据集对比实验

在这里插入图片描述

  • 真实数据集对比实验

在这里插入图片描述

评价

论文主要在以下几个方面做得比较好,一个是以前的论文根据梯度求解独立性一般只在权重第一层,这里通过引入神经网络路径的概念推广到了多层;第二点是将DAG和联合概率分布结合在了一起;第三点是采取了一些很有借鉴意义的抗过拟合策略;最后是实验做得比较充分。

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/我家小花儿/article/detail/152235
推荐阅读
相关标签
  

闽ICP备14008679号