当前位置:   article > 正文

词嵌入(Word Embedding)

词嵌入

1.把词汇映射到数学空间的过程称为词嵌入

2.最简单的嵌入是one-hot,但很难表达相似度

3.通过分布式表示来表示词嵌入,word2vec是其中一种

4.word2vec有三个假设,一个窗口假设,两个独立同分布假设

5.最终优化的目标函数是对数最大似然函数

6.通常使用神经网络去优化目标函数,输出层与词汇量个数相同

7.word2vec模型共用相同的隐藏层和系数矩阵

8.用每个词汇的one-hot表示与系数矩阵相乘得到的d维矩阵作为词汇的分布式表示

词向量的表示

数学模型的输入都是数值型的符号,对于文字,比如英文或者中文,那么我们就需要对文字做处理,转化为数字,才可以输入数学模型里面做训练.这方面典型的应用就是NLP(自然语言处理)。

所以,要对文字建立模型,第一步就需要对文字做数值转化——即把文字形式嵌入到一个数学空间,我们把这个过程称为词嵌入(word embedding)。一个最简单的嵌入方法就是one-hot,比如性别取值【男、女】转换为【0,1】。

传送门:

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/知新_RL/article/detail/366352
推荐阅读
相关标签
  

闽ICP备14008679号