赞
踩
通过前两小节的介绍,可以清楚的了解RNN模型的网络结构以及LSTM。本小节主要介绍RNN其他变形以及应用,包括
1.GRU单元
2.序列到序列(Seq2Seq)模型
3.注意力(Attention)模型
4.RNN在NLP中的应用
5.总结
GRU通过引入重置门和遗忘门来解决长期依赖问题,相对于LSTM有更少参数并且在某些问题上,效果好于LSTM。
- 重置门
如果重置门关闭,会忽略掉历史状态,即将历史不相干的信息不会影响未来的输出。rt=σ(Wrx+Urht−1) - 遗忘门
遗忘门能够控制历史信息对当前输出的影响,如果遗忘门接近1,此时会把历史信息传递下去zt=σ(Wzx+Uzht−1) - 节点状态
h^t=tanh(Wx+rtoUht−1) - 输出
ht=ztoht−1+(1−zt)oh^t
序列到序列模型可以解决很多不定长输入到输出的变换问题,等价于编码和解码模型,即编码阶段将不定长输入编码成定长向量;解码阶段对输出进行解码。
1.其中序列ABC是输入序列,WXYZ是输出序列,EOS是结束符号
2.模型分为两个阶段1)encode阶段,该阶段将输入序列编码成一个定长维度的向量2)decode阶段,根据编码后向量预测输出向量。
3.编码过程,可以使用标准的RNN模型,例如htyt=f(Whxxt+Whhht−1)=Whyht
4.解码过程,也可以使用一个标准的RNN模型进行解码,例如RNN-LM
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。