当前位置:   article > 正文

Long short-term memory 论文小记_论文笔记:long short-term memory 原创

论文笔记:long short-term memory 原创

这是Hochreiter(1997)的一篇老论文,我为了一睹lstm的原创遗风而读。本来想看看最朴素最正宗的lstm模型,结果却发现在本文中作者并未提出一种特有的模型。文章很长,并不打算翻译。下面是我的一些总结和见解,纯粹小菜鸟的个人观点,大家多多指正,非常欢迎~

首先是这篇文章的动机。作为一篇长文,什么支撑着作者进行这么多的实验,以及这篇文章的重要性有多大,取决于动机。在这里,总结成一句话就是:Old activation and scaled current input always perturb stored information so that information can’t last for long term.By adding a higher order unit can soften the problem a bit but can’t generalize.就是之前的激活函数还有直接对输入进行变换并不能存储信息,尤其是长时间的信息。通过加一些高阶的单元可以缓解这个问题,但是并不能每个模型都手动加,所以这个方法不能推广。

而当前的需求是:More realistic tasks require either many free parameters or high weight precision, such that guessing becomes completely infeasible.现实生活中的问题要么需要很多的参数,要么需要很高的精度,这都无法通过随机猜得到(指随机初始化)

基于这两点,作者想找到一种方法能够存储长时信息,而且不需要很多参数。

于是作者进行了一段时间的研究,发现之前的RNN也好,前馈也好,之所以不能存储长时信息,是因为:

  1. 所有的
声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/2023面试高手/article/detail/662877
推荐阅读
相关标签
  

闽ICP备14008679号