赞
踩
即将文本表示为一系列能表达文本语义的向量;
词袋(Bag of Word)模型:最早的以词语为基本处理单元的文本向量化方法;
词袋模型存在的问题:
神经网络语言模型(NNLM)
大致操作步骤:从语料库中收集一系列长度为 n n n的文本序列 w i − ( n − 1 ) , … , w i − 1 , w i w_{i-(n-1)},…,w_{i-1},w_i wi−(n−1),…,wi−1,wi,设这个长度为 n n n的文本序列组成的集合为 D D D,则NNML的目标函数定义为:
∑ D P ( w i ∣ w i − ( n − 1 ) , … , w i − 1 ) \sum _DP(w_i|w_{i-(n-1)},…,w_{i-1}) D∑P(wi∣wi−(n−1),…,wi−1)
即:在输入词序列为 w i − ( n − 1 ) , … , w i − 1 w_{i-(n-1)},…,w_{i-1} wi−(n−1),…,wi−1的情况下,计算目标词 w i w_i wi的概率;
在上述经典三层前馈神经网络结构中:为解决词袋模型数据稀疏问题,输入层的输入为低纬度的、紧密的词向量,将词序列 w i − ( n − 1 ) , … , w i − 1 w_{i-(n-1)},…,w_{i-1} wi−(n−1),…,wi−1中每个词向量按顺序进行拼接,即:
x = [ v ( w i − ( n − 1 ) ) ;
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。