赞
踩
word2vec
学习word2vec后的一个总结。
word2vec是训练词向量的一种方式,出自论文《Efficient Estimation of Word Representations in Vector Space》中,是谷歌Tomas Mikolov提出的一种开源的训练词向量的工具包。在word2vec中可以通过两种模型:CBOW模型和SKip-gram模型,来训练词向量。CBOW模型是通过上下文预测中心词的方式,而SKip-gram模型是通过中心词预测上下文的方式。
1. 预处理
由于word2vec模型的输入层(即input层)为one-hot独立编码,所以需要对文本进行预处理。预处理的最终目的是形成字典,让每一个单词对应一个ID(即一个编码)。由于英文本身就带有天生的断隔(空格),中文的预处理相比较于英文的预处理来说有些不同且更加困难。
#1.1.中文预处理
中文预处理的过程大概分为以下几步:1.读取文件。2.分词并去停用词。3.统计词频。4.根据词频,按单词出现频繁程度形成字典(一般,单词词频越大,在字典中越靠前)。
#1.2.英文预处理
英文预处理的过程大概分为以下几步:1.读取文件。2.统一单词形式(一般将大写变为小写)并去停用词。3.统计词频。4.根据词频形成字典。
停用词一般是标点符号或者其他一些常用词、数字等。预处理的资料与代码示例在博客上有许多。比如中文语料预处理手记。
2.word2vec模型</
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。