赞
踩
1、文本向量化概述
(1)含义
文本向量化就是将文本表示成一系列能够表达文本语义的向量。词语都是表达文本处理的最基本单元。当前阶段,对文本向量化大部分研究都是通过词向量化实现的。但也有一部分将文章或者句子作为文本处理的基本单元,于是产生了doc2vec和str2vec技术。
(2)方法
word2vec(词语),doc2vec(文章),str2vec(句子)
2、向量化算法 word2vec
词袋模型是最早的以词语为基本处理单元的文本向量化方法。
①John likes to watch movies,Mary likes too.
②John also likes to watch football games.
基于上述两个文档中出现的单词,构造如下词典:
{"John":1,"likes":2,"to":3,......},该词典中共包含10个单词,每个单词都有一个唯一的索引,那么每个文本我们都可以使用一个10维的向量来表示。
[1,2,1,1,1.....]
该向量与原来文本中单词出现的顺序没有关系,而是词典中每个单词在文本中出现的频率。但是这种方法存在如下三个问题:
1)维度灾难;2)无法保留词序信息;3)存在语义鸿沟的问题
词向量(doc2vec)技术就是为了利用神经网络从大量无标注的文本中提取有用信息而产生的。因为词袋模型只是将词语符号化,所以词袋模型是不包含任何语义信息的。神经网络词向量模型就是根据上下文与目标词之间的关系进行建模。
(1)神经网络语言模型(NNML)
与传统方法估算P(wi|wi-(n-1),...,wi-1)不同,NNLM模型直接通过一个神经网络结构对n元条件概率进行估计。
NNLM的基本结构图如下所示:
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。