当前位置:   article > 正文

解析TF-IDF算法原理:关键词提取,自动摘要,文本相似度计算_tf-idf算法计算文献与关键词的匹配度

tf-idf算法计算文献与关键词的匹配度
Abstract:TF-IDF算法是一种常用的词频统计方法,常被用于关键词提取、文本摘要、文章相似度计算等。


1.TF-IDF的算法思路

  • TF词频(Text Frequency):统计出现次数最多的词

  • IDF逆文档频率(Inverse Document Frequency):大小与一个词的常见程度成反比;即给某些词分配“重要性”权重(平时比较少见而在这篇文章里多次出现的词应给予较高权重,而平时也很常见的则分配较低权重(过滤停用词))

  • TF X IDF = 某个词的TF-IDF值,某个词对文章的重要性越高,其TF-IDF值越大,值最大的几个词即为关键词

    词频数:某个词在文章中的出现次数
词频率标准化,方便不同文章的比较:某个词在文章中的出现次数该文出现次数最多的词的出现次数
词频率标准化,方便不同文章的比较:某个词在文章中的出现次数文章的总词数
声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/小桥流水78/article/detail/753477
推荐阅读
相关标签
  

闽ICP备14008679号