赞
踩
主要介绍word2vec词向量算法和doc2vec文本向量算法。
文本表示是自然语言处理中的基础工作,直接影响到整个自然语言处理系统的性能,而文本向量化是文本表示的一种重要方式。
文本向量化根据对象的差异分为:
word2vec算法(词向量化)
doc2vec算法(文章向量化)
str2vec算法(句子向量化)
处理过程包括两部分内容:
1)对文本中出现的每个词进行统计和编码,生成词典;
2)对每个文档统计词典中各个词出现的次数,将词的编号作为索引,生成词向量列表;
存在的问题:
1)维度灾难:对每个文档都会产生非常高维的词典空间;
2)无法保留次序信息;
3)存在语义鸿沟;
分布假说的核心思想:上下文相似的词,其语义也相似。
神经网络模型能够灵活的对上下文进行建模,构造词表示。
神经网络的词向量模型:根据上下文与目标词之间的关系进行建模
目标:
构建一个语言概率模型
基本流程:
从语料库中搜集一系列长度为n的文本序列 w i − ( n − 1 ) , . . . , w i − 1 , w i w_{i-(n-1)},...,w_{i-1},w_i wi−(n−1),...,wi−1,wi,假设这些长度为n的文本序列组成的集合为 D D D,NNLM的目标函数为:
∑ D P ( w i ∣ w i − ( n − 1 ) , . . . , w i − 1 ) \sum_DP(w_i|w_{i-(n-1)},...,w_{i-1}) D∑P(wi∣wi−(n−1),...,wi−1)
NNLM模型采用的是经典的三层前馈神经网络结构,其中包括输入层、中间层、隐藏层和输出层三部分。
为了解决词袋模型数据稀疏问题,输入层的输入为低维度的、紧密的词向量,具体操作犯法是将词序列 w i − ( n − 1 ) , . . . , w i − 1 w_{i-(n-1)},...,w_{i-1} wi−(n−1),...,wi−1中的每个词向量按照顺序拼接,得到:
x = [ v ( w
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。