当前位置:   article > 正文

关于transformer的学习1(chatgpt生成答案)

关于transformer的学习1(chatgpt生成答案)

关于transformer的学习

1.transformer第一步:获取输入句子的每一个单词的表示向量 X,X由单词的 Embedding(Embedding就是从原始数据提取出来的Feature) 和单词位置的 Embedding 相加得到。
那就是说向量 x,实际上是同一个单词和它在句子中的位置Embedding后的一组变量??

以"我有一只猫"为例:
x1表示“我”组成的向量
x2表示“有”组成的向量
x3表示“一只”组成的向量
x4表示“猫”组成的向量

Alt
2.Embedding就是从原始数据提取出来的Feature,这个feature是啥??
自然语言处理(NLP)中,Embedding(嵌入)指的是将文本数据(如单词、句子或文档)映射到一个低维的向量空间中的过程。这个低维向量被称为嵌入向量,它捕捉了文本数据的语义和语法信息。

具体来说,对于单词嵌入(Word Embedding),它是从大规模文本语料中学习得到的,其目标是使得语义上相似的单词在嵌入空间中的表示也相似。例如,对于语义上相似的单词(如“king”和“queen”),它们在嵌入空间中的向量表示应该是接近的。

嵌入向量通常是通过词嵌入模型(如Word2Vec、GloVe、FastText等)在训练过程中学习得到的,这些模型通过观察文本数据中单词的上下文信息来学习单词的向量表示。这些向量不仅仅捕捉了单词的语义信息,还可以用于向模型提供输入特征,从而帮助模型更好地理解和处理文本数据。

总结来说,Embedding 就是从原始文本数据中提取出来的、用于表示文本语义信息的低维向量特征。
3.将得到的单词表示向量矩阵 (如上图所示,每一行是一个单词的表示 x) 传入 Encoder 中,经过 6 个 Encoder block 后可以得到句子所有单词的编码信息矩阵 C
为什么要经过encode呢,而且还是6个,得到的单词表示向量矩阵和 矩阵 C 有啥区别??

在自然语言处理中,特别是在使用Transformer或类似架构的模型时,“Encoder” 指的是处理输入文本序列的部分。这里的 “encode” 操作指的是将输入的单词表示向量矩阵(每一行是一个单词的表示向量
本文内容由网友自发贡献,转载请注明出处:【wpsshop博客】

推荐阅读
相关标签