赞
踩
提出了一种基于梯度的DAG的学习算法
对每个变量 X j X_j Xj,学习一个有L个隐藏层的全连接神经网络,表示为
对第j个神经网络,其输入为将原始向量X的j分量全部变为0之后得到的,其输出为,也就是 X j X_j Xj对应的分布族的参数向量,输出和输入的对应关系如下图所示,在具体实验中,模型只输出一个值,即高斯分布的均值:
对每一个模型j,其编码的其实是条件概率密度函数,通过利用邻接矩阵约束其乘积构成一个联合概率分布,也就是积分的结果为1来确保可以学习到一个DAG
定义一个神经网络中的计算路径为神经网络路径,例如在一个有两个隐藏层的神经网络中,从输入i到输出k的计算路径为,如果路径中至少有一个权重是0,那么该路径为不活跃的。如果对于任意的h1、h2,所有路径都是不活跃的,也就是所有路径积的和为0,那么输出k不会依赖于输入i。
这等价于计算以下连通性矩阵,即
如果,则输出k不会依赖于输入i
无环约束写作
最大似然优化问题可以写作:
将该问题分解为子问题,并引入拉格朗日增广
论文主要在以下几个方面做得比较好,一个是以前的论文根据梯度求解独立性一般只在权重第一层,这里通过引入神经网络路径的概念推广到了多层;第二点是将DAG和联合概率分布结合在了一起;第三点是采取了一些很有借鉴意义的抗过拟合策略;最后是实验做得比较充分。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。