当前位置:   article > 正文

WORD2VEC总结_word2vec出自哪篇论文

word2vec出自哪篇论文

word2vec
学习word2vec后的一个总结。
word2vec是训练词向量的一种方式,出自论文《Efficient Estimation of Word Representations in Vector Space》中,是谷歌Tomas Mikolov提出的一种开源的训练词向量的工具包。在word2vec中可以通过两种模型:CBOW模型和SKip-gram模型,来训练词向量。CBOW模型是通过上下文预测中心词的方式,而SKip-gram模型是通过中心词预测上下文的方式。
1. 预处理
由于word2vec模型的输入层(即input层)为one-hot独立编码,所以需要对文本进行预处理。预处理的最终目的是形成字典,让每一个单词对应一个ID(即一个编码)。由于英文本身就带有天生的断隔(空格),中文的预处理相比较于英文的预处理来说有些不同且更加困难。
#1.1.中文预处理
中文预处理的过程大概分为以下几步:1.读取文件。2.分词并去停用词。3.统计词频。4.根据词频,按单词出现频繁程度形成字典(一般,单词词频越大,在字典中越靠前)。
#1.2.英文预处理
英文预处理的过程大概分为以下几步:1.读取文件。2.统一单词形式(一般将大写变为小写)并去停用词。3.统计词频。4.根据词频形成字典。
停用词一般是标点符号或者其他一些常用词、数字等。预处理的资料与代码示例在博客上有许多。比如中文语料预处理手记
2.word2vec模型</

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/我家自动化/article/detail/354226
推荐阅读
相关标签
  

闽ICP备14008679号