当前位置:   article > 正文

自然语言处理(概念)

自然语言处理(概念)

1、 RNN模型简介

在这里插入图片描述
在这里插入图片描述在这里插入图片描述

在这里插入图片描述

1.2传统RNN模型

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述在这里插入图片描述

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

2、LSTM模型

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

3、GRU模型

在这里插入图片描述

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

5、注意力机制

在这里插入图片描述在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

在这里插入图片描述

6、人名分类器

在这里插入图片描述

7 、BERT

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

8、Transformer 的结构是什么样子的? 各个子模块有什么作用?

8.1 Encoder模块

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

8.2 Decoder模块

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

8.3 Transformer 结构中的Decoder端具体输入是什么? 在训练阶段和预测阶段一致吗?

在这里插入图片描述
在这里插入图片描述

在这里插入图片描述

8.4 Transformer中一直强调的self-attention是什莫?为什么能发挥如此大的作用?计算的时候如果不使用三元组(Q,K,V),而仅仅使用(Q,V)或者(K,V)或者(V)行不行、

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

8.5 Transformer 为什莫需要进行Multi-Head Attention? Multi-head Attention 的计算过程是什莫?

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

8.6 Transformer 相比于RNN/LSTM有什莫优势?为什莫?

在这里插入图片描述
在这里插入图片描述

8.7 为什么说Transformer可以替代seq2seq?

在这里插入图片描述

8.8 self-attention公式中的归一化有什莫作用?为什么要添加scaled

在这里插入图片描述


在这里插入图片描述
在这里插入图片描述

在这里插入图片描述
在这里插入图片描述

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在里插入图片描述

8.8 Transformer 架构的并行化如何进行的?具体体现在在哪?

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

8.10 BERT 模型的优点和缺点

在这里插入图片描述
在这里插入图片描述

8.11 BRET 的MLM任务中为什么采用了80%,10%,10%的策略?

在这里插入图片描述
在这里插入图片描述

8.11 长文本预测任务如果想用BERT来实现,如何构造训练样本?

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/小小林熬夜学编程/article/detail/343051
推荐阅读
相关标签
  

闽ICP备14008679号