赞
踩
1.把词汇映射到数学空间的过程称为词嵌入
2.最简单的嵌入是one-hot,但很难表达相似度
3.通过分布式表示来表示词嵌入,word2vec是其中一种
4.word2vec有三个假设,一个窗口假设,两个独立同分布假设
5.最终优化的目标函数是对数最大似然函数
6.通常使用神经网络去优化目标函数,输出层与词汇量个数相同
7.word2vec模型共用相同的隐藏层和系数矩阵
8.用每个词汇的one-hot表示与系数矩阵相乘得到的d维矩阵作为词汇的分布式表示
词向量的表示
数学模型的输入都是数值型的符号,对于文字,比如英文或者中文,那么我们就需要对文字做处理,转化为数字,才可以输入数学模型里面做训练.这方面典型的应用就是NLP(自然语言处理)。
所以,要对文字建立模型,第一步就需要对文字做数值转化——即把文字形式嵌入到一个数学空间,我们把这个过程称为词嵌入(word embedding)。一个最简单的嵌入方法就是one-hot,比如性别取值【男、女】转换为【0,1】。
传送门:
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。