【机器学习】文本数据的向量化(TF-IDF)---样本集实例讲解+python实现_文本向量化公式

作者：从前慢现在也慢 | 2024-06-13 01:42:17

踩

文本向量化公式

1.文本数据的向量化

CF：文档集的频率，是指词在文档集中出现的次数

DF：文档频率，是指出现词的文档数

IDF：逆文档频率，idf = log(N/(1+df))，N为所有文档的数目，为了兼容df=0情况，将分母弄成1+df。

TF：词在文档中的频率

TF-IDF：TF-IDF= TF*IDF

为了讲解文本数据的向量化，假设我们有4个文本，所有文本一共有6个不同的词，如下所示。

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/从前慢现在也慢/article/detail/710426