Long short-term memory 论文小记_论文笔记:long short-term memory 原创

作者：2023面试高手 | 2024-06-02 13:25:55

踩

论文笔记:long short-term memory 原创

这是Hochreiter（1997）的一篇老论文，我为了一睹lstm的原创遗风而读。本来想看看最朴素最正宗的lstm模型，结果却发现在本文中作者并未提出一种特有的模型。文章很长，并不打算翻译。下面是我的一些总结和见解，纯粹小菜鸟的个人观点，大家多多指正，非常欢迎~

首先是这篇文章的动机。作为一篇长文，什么支撑着作者进行这么多的实验，以及这篇文章的重要性有多大，取决于动机。在这里，总结成一句话就是：Old activation and scaled current input always perturb stored information so that information can’t last for long term.By adding a higher order unit can soften the problem a bit but can’t generalize.就是之前的激活函数还有直接对输入进行变换并不能存储信息，尤其是长时间的信息。通过加一些高阶的单元可以缓解这个问题，但是并不能每个模型都手动加，所以这个方法不能推广。

而当前的需求是：More realistic tasks require either many free parameters or high weight precision, such that guessing becomes completely infeasible.现实生活中的问题要么需要很多的参数，要么需要很高的精度，这都无法通过随机猜得到（指随机初始化）

基于这两点，作者想找到一种方法能够存储长时信息，而且不需要很多参数。

于是作者进行了一段时间的研究，发现之前的RNN也好，前馈也好，之所以不能存储长时信息，是因为：

所有的

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/2023面试高手/article/detail/662877