当前位置:   article > 正文

【java机器学习】词向量在贝叶斯中的概念_词向量 java

词向量 java

向量:

在数学中,向量(也称为欧几里得向量、几何向量、矢量),指具有大小(magnitude)和方向的量

词向量:

词向量(Word embedding),又叫Word嵌入式自然语言处理(NLP)中的一组语言建模和特征学习技术的统称,其中来自词汇表的单词或短语被映射到实数的向量。 从概念上讲,它涉及从每个单词一维的空间到具有更低维度的连续向量空间的数学嵌入。

单词条件概率计算步骤:

对每篇训练文档:
对每个类别:
如果词条出现在文档中------增加该词条的计数值
增加所有词条的计数值
对每个类别:
对每个词条:将该词条的数目除以总词条数目得到条件概率

计算结果表示:
来源:https://blog.csdn.net/charlesqinjiaqi/article/details/78272598?utm_source=blogxgwz3
[ 0.04166667 0.04166667 0.04166667 0. 0. 0.04166667
0.04166667 0.04166667 0. 0.04166667 0.04166667 0.04166667
0.04166667 0. 0. 0.08333333 0. 0.
0.04166667 0. 0.04166667 0.04166667 0. 0.04166667
0.04166667 0.04166667 0. 0.04166667 0. 0.04166667
0.04166667 0.125 ]
p1Vect:

[ 0. 0. 0. 0.05263158 0.05263158 0. 0.
0. 0.05263158 0.05263158 0. 0. 0.
0.05263158 0.05263158 0.05263158 0.05263158 0.05263158 0.
0.10526316 0. 0.05263158 0.05263158 0. 0.10526316
0. 0.15789474 0. 0.05263158 0. 0. 0. ]

从结果中,可以看出词汇表中第一个词是cute,其在类别0中出现一次,而在类别1中未出现,对应的条件概率为别为0.04166667和0。

声明:本文内容由网友自发贡献,转载请注明出处:【wpsshop博客】
推荐阅读
相关标签
  

闽ICP备14008679号