赞
踩
这是Hochreiter(1997)的一篇老论文,我为了一睹lstm的原创遗风而读。本来想看看最朴素最正宗的lstm模型,结果却发现在本文中作者并未提出一种特有的模型。文章很长,并不打算翻译。下面是我的一些总结和见解,纯粹小菜鸟的个人观点,大家多多指正,非常欢迎~
首先是这篇文章的动机。作为一篇长文,什么支撑着作者进行这么多的实验,以及这篇文章的重要性有多大,取决于动机。在这里,总结成一句话就是:Old activation and scaled current input always perturb stored information so that information can’t last for long term.By adding a higher order unit can soften the problem a bit but can’t generalize.就是之前的激活函数还有直接对输入进行变换并不能存储信息,尤其是长时间的信息。通过加一些高阶的单元可以缓解这个问题,但是并不能每个模型都手动加,所以这个方法不能推广。
而当前的需求是:More realistic tasks require either many free parameters or high weight precision, such that guessing becomes completely infeasible.现实生活中的问题要么需要很多的参数,要么需要很高的精度,这都无法通过随机猜得到(指随机初始化)
基于这两点,作者想找到一种方法能够存储长时信息,而且不需要很多参数。
于是作者进行了一段时间的研究,发现之前的RNN也好,前馈也好,之所以不能存储长时信息,是因为:
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。