赞
踩
画一下GRU的单元结构?
介绍一下RNN、LSTM、Transformer各自的优缺点?
介绍一下梯度爆炸/梯度消失的解决办法?
RNN为什么容易出现梯度爆炸/梯度消失的问题,能否使用一些技巧缓解?