赞
踩
自然语言处理-词向量模型-Word2Vec
在自然语言处理(NLP)过程中,每个字中间有顺序
比如对一个人进行打分,我们不能只看外在(Extraversion)打分,只在其中一个层面进行描述,而是要结合多个特点Trait,综合各项指标进行打分
而仅仅是2维可能是不够的,50维肯定是够的,但是300维计算更精确,通常数据的维度越高,能提供的信息也就越多,从而计算结果的可靠性就更值得信赖
向量和向量之间可以做相似度的计算,先得将词向量构建好
假设现在已经将每个词转化成了50维的向量(如下图所示)
计算机能认识,我们不知道是如何进行转化的,相当于一个编码,我们只需要将向量训练出来,剩下如何去评估,如何去衡量,都交给计算机就足够了
continuous bag of words(连续词袋模型)
如下图,输入是上下文,输出是中间缺的词
比如窗口是5,那么四个输入分别是by 、a 、bus 、 in ,输出就是red,也就是该空是red
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。