当前位置:   article > 正文

一文让你由浅入深的理解Transform模型

transform模型

简单解释

Transform是在神经网络之后又发展的一个比较流行的深度模型,今天就给大家解释一下这个模型的原理。首先先抛出一个问题?神经网络有哪些缺点,或者是LSTM有什么不足之处,以至于让我们又发展了Transform这个深度模型?在这里我自己总结出了几点:

1、 难解释性,神经网络的一个通病,做出来的好坏都比较难解释,

2、 梯度消失和梯度爆炸的问题。

3、 LSTM只能串行计算,不能并行,因为它是一个时序类的模型。

4、 对于翻译这类生成模型计算起来比较复杂,耗时比较长而且效果也不是很好。

5、 由于梯度消失而导致的忽略了部分的特征提取。

等等还有其他原因导致我们在一些任务上处理的不是很好,但是神经网络还在发展阶段,我很看好它们后续的发展。

其实对于nlp常用的LSTM和GRU来说最大的问题还是在于梯度消失和不能并行计算,因此后来的科学家发展了另外一种特征提取的方式或者模型叫做Self-Attention,这也是transform最核心的部分,所以想要了解transform先要了解self-Attention的原理

self-Attention

self-attention的原理很简单,就是计算每个词与所有词之间的“关系”,举个例子:比如有这样的一句话:“今天天气很好天空特别蓝”分完词后:“今天”,“天气”,“很好”,“天空”,“特别蓝”,他们对应的词向量是V(今天),V(天气),V(很好),V(天空),V(特别蓝),self-attention处理过程如图:

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/AllinToyou/article/detail/652799
推荐阅读
相关标签
  

闽ICP备14008679号