赞
踩
咱们还是照图讨论,transformer结构图如下,本文主要讨论Encoder部分,从低端输入inputs开始,逐个结构进行:
在NLP领域,个人理解,这个inputs就是我们的句子分词之后的词语,比如:我的句子是“我喜欢中国”,那么inputs为“我“,”喜欢“,”中国”,然后Input Embedding就是对这些词语的向量化(词向量),之后加上这些词对应的位置信息(比如“喜欢”在“我喜欢中国”中位置为2),两者结合作为Multi-Head Attention(多头注意力机制)的输入。
多头注意力机制,可以简单的理解为:对这个操作重复了n次,得到n个结果 .....,之后对这n个结果求平均,得到一个更稳健的输出。
重复n次实际上就是进行n次单独的self-attention,由于每次的、、都不同,所以每次self-attention的输出Z也不同,高级的意义:通过重复n次操作,将输入映射到不同的子空间,以便于提取更多的特征信息,从而提高准确性。
大白话:与从不同方位观察物体一样,从前面、侧面、后面看物体,肯定能获取关于这个物体更多的信息对吧,提取更多特征,从而有更深的理解,通俗易懂
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。