赞
踩
NLP基础系列
把自然语言文本转换为向量
文本分析
文本分析指从文本中抽取出的特征来量化来表示文本信息,并在此基础上对其进行基于数学模型的处理。它是文本挖掘、信息检索的一个基本问题。
在“大数据”盛行的今天,对于非结构化信息的处理已经成了许多工作的必选项,而自然语言书写的文本,就是最典型的一种非结构化信息。
文本分析已经从学院派象牙塔中的研究课题逐步渗入到各个应用领域。对于正在做或者有志于做数据分析的人,掌握基本的文本分析知识和技法,已经成为必要。
向量空间模型
针对文本的具体操作很多,最典型的就是分类和聚类。引入机器学习的办法,让程序自己“学会”如何去区分不同类型的文本,是当前业界通行的办法。
而如此做的前提,是要把一个个自然语言文档(Document),转换为一个个可以用来进行数学运算的向量(Vector)。
当你用某种机器学习算法对某些文本进行分析的时候,你首先需要一个训练集(Training Set)。
假设这个训练集中包含N个文档,你要把这N个文档转换成N个与之一一对应的向量。再假设每个向量包含M维。
那么最终,当全部转换完之后,你把所有N个M维向量放在一起,就构成了一个NxM的矩阵(Matrix)。
这个矩阵就是你的训练集所构建的向量空间模型(Vector Space Model,VSM)。
之后的算法,就是运行在这个NxM的矩阵之上的。
向量空间模型的构建方式大致可以分为两类:
非深度学习的手工特征工程方法,由特征提取的人员手工设置一些转换规则,将文本转换为向量;
基于深度学习的文本数据表征方
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。