赞
踩
LSTM(长短时记忆)和GRU非常像,事实上GRU是通过LSTM改造而来的。
GRU只有一个记忆门,而LSTM有一个记忆门和一个遗忘门,还有一个输出门。
a的计算以下图为准。
初始化遗忘门的bias的时候通常会赋予一个比较小的值,以保证遗忘门多数情况下都是开启的。