当前位置:   article > 正文

泛谈-文本挖掘-词向量技术(一)_文本挖掘查询向量

文本挖掘查询向量

目录

 

1. 文本数据是什么?     

2. 为什么?

3. 怎么做?

3.1. one-hot编码

3.2. word2vec

3.3. doc2vec

3.4. glove

3.5. fasttext

3.6. emlo

3.7. GPT

3.8. bert


当我们需要进行文本挖掘的时候,必须先了解我们的数据到底是个啥,才知道应该怎么做对吧。

1. 文本数据是什么?     

        文本数据是指不能参与算术运算的任何字符,也称为字符型数据。如英文字母、汉字、不作为数值使用的数字(以单引号开头)和其他可输入的字符。

文本数据具有哪些特点呢?

  • 半结构化

  文本数据既不是完全无结构的也不是完全结构化的。例如文本可能包含结构字段,如标题、作者、出版日期、长度、分类等,也可能包含大量的非结构化的数据,如摘要和内容。

  • 高维

  文本向量的维数一般都可以高达上万维,一般的数据挖掘、数据检索的方法由于计算量过大或代价高昂而不具有可行性。

  • 高数据量

  一般的文本库中都会存在最少数千个文本样本,对这些文本进行预处

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/知新_RL/article/detail/819457
推荐阅读
相关标签
  

闽ICP备14008679号