当前位置:   article > 正文

jieba tfidf_【NLP】【三】jieba源码分析之关键字提取(TF-IDF/TextRank)

jieba tfidf_【NLP】【三】jieba源码分析之关键字提取(TF-IDF/TextRank)

【一】综述

利用jieba进行关键字提取时,有两种接口。一个基于TF-IDF算法,一个基于TextRank算法。TF-IDF算法,完全基于词频统计来计算词的权重,然后排序,在返回TopK个词作为关键字。TextRank相对于TF-IDF,基本思路一致,也是基于统计的思想,只不过其计算词的权重时,还考虑了词的上下文(通过窗口滑动来实现),而且计算词的权重时,也考虑了相关联系词的影响。可以说,TextRank实际上是依据位置与词频来计算词的权重的。下面,结合基于jieba源码,来分别解释两种算法的实现。

【二】TF-IDF

1. 原理解析

假设,共有N篇文档,分别用 d1,d2,d3,,,,,,,dn来表示。

TF = 某个词在di篇文章中出现的次数/di篇文章的总词数 = count(W in di)/ count(di)。因此,TF计算的是单个词在单个文档中出现的词频。

IDF = 总的文档数 / 出现词W的文档数 。 IDF其实反映了词W在文档之间的区别度。如果W在仅在一篇文档中出现,则说明可以使用W将该文档与其他文档区别开来。即IDF可以反映W的独特性 。

TF*IDF,可以得到词的重要性。比如: 北京和西安在同一篇文档中的词频均为20%,那如何估计北京是该文的关键字,还是西安呢?如果同时有10篇文章均提到了北京,恰好只有这篇文章提到了西安,则西安作为这篇文章的关键字更为合理。
————————————————
版权声明:本文为CSDN博主「王若然」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上https://blog.csdn.net/weixin_31458015/article/details/115039076

 







java jieba tfidf_【NLP】【三】jieba源码分析之关键字提取(TF-IDF/TextRank)_王若然的博客-CSDN博客

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/繁依Fanyi0/article/detail/281592
推荐阅读
相关标签
  

闽ICP备14008679号