文本的向量化表示总结_文本向量表示方法

作者：菜鸟追梦旅行 | 2024-06-04 04:21:59

踩

文本向量表示方法

文本向量化，顾名思义就是将一段文字（一篇文章，一个段落或者是一个句子）变成一个向量。在尽可能不丢失原始文本信息的情况下，将文本变成可以计算的向量，可以帮助后续的文本聚类、分类、相似度匹配等等的诸多任务。

1.词集模型：one-hot编码向量化文本（统计各词在文本中是否出现）

2.词袋模型：文档中出现的词对应的one-hot向量相加（统计各词在文本中出现次数，在词集模型的基础上。）

3.词袋模型+IDF：TFIDF向量化文本（词袋模型+IDF值，考虑了词的重要性）

4.N-gram模型：考虑了词的顺序

5.word2vec模型：使用文章中所有词的平均词向量作为文章的向量

1到5的出现是后者为了弥补前者的不足。

词集模型没有考虑词的频率，因此出现了词袋模型

词袋模型没有考虑词的重要度，因此出现了词袋+IDF的模型

词袋模型没有考虑词的顺序，因此出现了N-gram模型

N-gram模型的优点是考虑了词的顺序，但是会出现词表膨胀的问题。

注意：本文不考虑共现矩阵以及降维

常说的文本向量化表示方法将上述几种模型分为：离散化表示方法和分布式表示方法

离散化表示方法：包括词袋模型（可用TF-IDF进行修正）和N-gram模型

分布式表示方法：word2vec模型

离散化表示方法的问题：

无法衡量词向量之间的关系

词的维度随着语料库的增长膨胀、n-gram词序列随着语料库膨胀更快

数据稀疏问题

分布式表示方法的优点：

保证了词的相似性

保证了词空间分布的相似性

参考：

2.讲义《词向量到word2vec相关应用》

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/菜鸟追梦旅行/article/detail/670361