一文让你由浅入深的理解Transform模型

作者：AllinToyou | 2024-05-31 14:24:14

踩

transform模型

简单解释

Transform是在神经网络之后又发展的一个比较流行的深度模型，今天就给大家解释一下这个模型的原理。首先先抛出一个问题？神经网络有哪些缺点，或者是LSTM有什么不足之处，以至于让我们又发展了Transform这个深度模型？在这里我自己总结出了几点：

1、难解释性，神经网络的一个通病，做出来的好坏都比较难解释，

2、梯度消失和梯度爆炸的问题。

3、 LSTM只能串行计算，不能并行，因为它是一个时序类的模型。

4、对于翻译这类生成模型计算起来比较复杂，耗时比较长而且效果也不是很好。

5、由于梯度消失而导致的忽略了部分的特征提取。

等等还有其他原因导致我们在一些任务上处理的不是很好，但是神经网络还在发展阶段，我很看好它们后续的发展。

其实对于nlp常用的LSTM和GRU来说最大的问题还是在于梯度消失和不能并行计算，因此后来的科学家发展了另外一种特征提取的方式或者模型叫做Self-Attention，这也是transform最核心的部分，所以想要了解transform先要了解self-Attention的原理

self-Attention

self-attention的原理很简单，就是计算每个词与所有词之间的“关系”，举个例子:比如有这样的一句话：“今天天气很好天空特别蓝”分完词后：“今天”，“天气”，“很好”，“天空”，“特别蓝”，他们对应的词向量是V(今天)，V(天气)，V(很好)，V(天空)，V(特别蓝)，self-attention处理过程如图：

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/AllinToyou/article/detail/652799