赞
踩
根据输出和输入序列不同数量rnn可以有多种不同的结构,不同结构自然就有不同的引用场合。如下图,
传统的RNN模型要求输入输出序列是等长的,而第四中输入输出序列不等长,因此第四的模型即为Sequence to Sequence,它实现了一个序列到另一个序列的转换。
资料来源:https://blog.csdn.net/starzhou/article/details/78171936
Seq-to-Seq模型来自“Learning Phrase Representations using RNN Encoder–Decoder for Statistical Machine Translation”这篇论文
注:模型可使用LSTM替换RNN,以解决RNN的长期依赖问题;
以下计算过程以点乘为例;
2.多头部注意力机制:
以上内容来自于:
https://www.bilibili.com/video/BV1v3411r78R?p=2&spm_id_from=pageDriver
在tansformer中包括多个block,不同的block包括不同的组件,encoder 的block包括自注意力机制和全连接层如下图;
Encoder过程:
在Encoder中,①自注意力机制生成向量后,对其进行残差连接,(所谓残差连接即f(x)+x,就是生成的向量与未处理的向量进行拼接);②然后进行layer正则化,将正则化后的向量输入全连接层;③对输出向量进行残差连接后进行layer正则化,输出本模块Encoder结果;
4.model--train
以上内容来自于:https://www.bilibili.com/video/BV1v3411r78R?p=4
2)Bert 训练2:Next Sentence Prediction
以上内容来自于:
https://www.bilibili.com/video/BV1JA411t7m6?from=search&seid=8958036506133967786
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。