赞
踩
图1
图2
弱逼补充:为啥选择这个激活函数呢?因为这个函数连续可导,平滑性质好,
具体看图:
至于为啥不选择其他同样平滑的函数,who knows...目测是实践中检验出来的。好下面接着看原作者的:
接着补充:这里提到了个微分增量,我把数学忘完了。。。
建议百度百科,这里微分就相当于是E这个错误是和yi的值成函数关系,yi-di就是函数关系,yi是自变量,E是函数的结果,所以这么的一个表示就是微分。。。后面的公示也是同理嘞。
同时,下面的证明过程中,一定要注意下标呀。j表示的是当前层。i表示的是前一层,记住这个后面就容易理解。
这步推到只推出了三个连乘的第一个,后面两个值与那层的变量相关,随意结果只是下标改改。
为啥要乘上呢l呢,理解是一点点的去减少调整这个误差,设置值太小,慢,设置值太大,步长就大,这l也应该是一个值得考虑的问题。
写在后面:梯度下降有个问题是容易陷入局部最小值的问题。如果这个问题不了解的话,那可以回想回想一个3d平面,有若干坑,如果随机点沿着下降最快的地方去跑,很可能跑到了一个小坑里面,却没有跑到真正的全局最小值的坑里。
从博文的评论中看到该问作者实现了这个神经网络,但是没有使用这个梯度下降的模型。呵呵,这个就算是理解什么是神经网络,什么是从后面往前推导的过程。下面待学习的就是评论中提到的动量因子模型。
作者实现实现了动量因子模型,代码:
http://www.cnblogs.com/jzhlin/archive/2012/07/30/bp_c.html
http://www.cnblogs.com/jzhlin/archive/2012/08/01/bp_c2.html
以及还要看的:
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。