赞
踩
自然语言是一套用来表达含义的复杂系统。在这套系统中,词是表义的基本单元。顾名思义,词向量是用来表示词的向量,也可被认为是词的特征向量或表征。把词映射为实数域向量的技术也叫词嵌入(word embedding)。近年来,词嵌入已逐渐成为自然语言处理的基础知识。
skip-window=2
,中心词为“loves”,那么上下文的词即为:“the”、“man”、“his”、“son”。这里的上下文词又被称作“背景词”,对应的窗口称作“背景窗口”。第一步,进行one-hot编码,有同学可以能疑惑,开篇就说了one-hot不行,存在着致命的问题,没有办法计算单词之间的相似度,但是我们不要忽略一个事实,计算机没办法识别“字符”,所有的数据必须转化成二进制的编码形式。
那么既然选择了使用one-hot进行编码,该怎么进行处理呢?
这样的方式非常的简单,编码后的结果就是一个非常稀疏的矩阵了。(稀疏到什么程度呢?每一行只有一个元素,其余的都为0)
比如:我的词典里有 N N N个不重复的单词,那么整体编码后就是 N ∗ N N * N N∗N维的一个大矩阵了,对于一个单词来说就是 1 ∗ N 1*N 1∗N的向量。
P ( “the" , “man" , “his" , “son" ∣ “loves" ) . P(\textrm{``the"},\textrm{``man"},\textrm{``his"},\textrm{``son"}\mid\textrm{``loves"}). P(“the",“man",“his",“son"∣“loves").
P
(
“the"
∣
“loves"
)
⋅
P
(
“man"
∣
“loves"
)
⋅
P
(
“his"
∣
“loves"
)
⋅
P
(
“son"
∣
“loves"
)
.
P(\textrm{``the"}\mid\textrm{``loves"})\cdot P(\textrm{``man"}\mid\textrm{``loves"})\cdot P(\textrm{``his"}\mid\textrm{``loves"})\cdot P(\textrm{``son"}\mid\textrm{``loves"}).
P(“the"∣“loves")⋅P(“man"∣“loves")⋅P(“his"∣“loves")⋅P(“son"∣“loves").
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。