泛谈-文本挖掘-词向量技术（一）_文本挖掘查询向量

作者：知新_RL | 2024-07-13 12:32:05

踩

文本挖掘查询向量

当我们需要进行文本挖掘的时候，必须先了解我们的数据到底是个啥，才知道应该怎么做对吧。

1. 文本数据是什么？

文本数据是指不能参与算术运算的任何字符，也称为字符型数据。如英文字母、汉字、不作为数值使用的数字(以单引号开头)和其他可输入的字符。

文本数据具有哪些特点呢？

　　文本数据既不是完全无结构的也不是完全结构化的。例如文本可能包含结构字段，如标题、作者、出版日期、长度、分类等，也可能包含大量的非结构化的数据，如摘要和内容。

　　文本向量的维数一般都可以高达上万维，一般的数据挖掘、数据检索的方法由于计算量过大或代价高昂而不具有可行性。

　　一般的文本库中都会存在最少数千个文本样本，对这些文本进行预处

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/知新_RL/article/detail/819457