当前位置:   article > 正文

自然语言处理系列之:文本向量化_语义向量化

语义向量化

大纲

  • 文本向量化常用算法介绍,word2vec及doc2vec
  • 向量化方法的模型训练和使用

7.1 文本向量化概述

即将文本表示为一系列能表达文本语义的向量;


7.2 向量化算法word2vec

  • 词袋(Bag of Word)模型:最早的以词语为基本处理单元的文本向量化方法;

  • 词袋模型存在的问题:

    • 维度灾难
    • 无法保留词序信息
    • 存在语义鸿沟问题
  • 神经网络语言模型(NNLM)

    NNLM语言模型

    大致操作步骤:从语料库中收集一系列长度为 n n n的文本序列 w i − ( n − 1 ) , … , w i − 1 , w i w_{i-(n-1)},…,w_{i-1},w_i wi(n1),,wi1,wi,设这个长度为 n n n的文本序列组成的集合为 D D D,则NNML的目标函数定义为:

    ∑ D P ( w i ∣ w i − ( n − 1 ) , … , w i − 1 ) \sum _DP(w_i|w_{i-(n-1)},…,w_{i-1}) DP(wiwi(n1),,wi1)

    即:在输入词序列为 w i − ( n − 1 ) , … , w i − 1 w_{i-(n-1)},…,w_{i-1} wi(n1),,wi1的情况下,计算目标词 w i w_i wi的概率;

    在上述经典三层前馈神经网络结构中:为解决词袋模型数据稀疏问题,输入层的输入为低纬度的、紧密的词向量,将词序列 w i − ( n − 1 ) , … , w i − 1 w_{i-(n-1)},…,w_{i-1} wi(n1),,wi1中每个词向量按顺序进行拼接,即:

    x = [ v ( w i − ( n − 1 ) ) ;

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/寸_铁/article/detail/898984
推荐阅读
相关标签
  

闽ICP备14008679号