当前位置:   article > 正文

机器学习第五篇----TF-IDF算法详解_di词频计算公式

di词频计算公式

TF-IDF是Term Frequency - Inverse Document Frequency的缩写,即“词频-逆文本频率”。它由两部分组成,TF和IDF。在前期的关键词提取和文本one-hot的时候使用较多

1、TF-IDF 算法
TF(词频):表示词w在文档Di中出现的频率,计算公式如下

在这里插入t图片描述
其中count(w)为关键词w出现的次数,|Di| 为文档Di中所有词的数量。

IDF(逆文档频率):)反映关键词的普遍程度——当一个词越普遍(即有大量文档包含这个词)时,其IDF值越低;反之,则IDF值越高。计算公式如下:
在这里插入图片描述
其中,N为所有的文档总数,I(w,Di)表示文档Di是否包含关键词,若包含则为1,若不包含则为0。若词w在所有文档中均未出现,则IDF公式中的分母为0,因此实践中需要对IDF做平滑

在这里插入图片描述
词w在文档Di的TF-IDF值计算如下:

在这里插入图片描述

2、TF-IDF代码实现

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/在线问答5/article/detail/782129
推荐阅读
相关标签
  

闽ICP备14008679号