赞
踩
目录
当我们需要进行文本挖掘的时候,必须先了解我们的数据到底是个啥,才知道应该怎么做对吧。
文本数据是指不能参与算术运算的任何字符,也称为字符型数据。如英文字母、汉字、不作为数值使用的数字(以单引号开头)和其他可输入的字符。
文本数据具有哪些特点呢?
文本数据既不是完全无结构的也不是完全结构化的。例如文本可能包含结构字段,如标题、作者、出版日期、长度、分类等,也可能包含大量的非结构化的数据,如摘要和内容。
文本向量的维数一般都可以高达上万维,一般的数据挖掘、数据检索的方法由于计算量过大或代价高昂而不具有可行性。
一般的文本库中都会存在最少数千个文本样本,对这些文本进行预处
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。