当前位置:   article > 正文

【NLP】文本关键词提取的两种方法-TFIDF和TextRank_词组提取

词组提取

背景

前两天看到论文《Chinese Poetry Generation with Planning based Neural Network》中使用TextRank进行关键词提取。在阅读文章时也想到了除了TextRank之外,经常还使用TFIDF进行关键词提取。

一些算法的使用取决于业务场景和算法的特性。关键词提取是干什么的呢?关键词抽取的任务就是从一段给定的文本中自动抽取出若干有意义的词语或词组。 那么这个有意义的就会和算法的特性结合在一起了。

补充一句:这两种方案是无监督的,当然也可以使用分类的方式进行有监督的处理,本文不讨论关于有监督的关键词提取方法。

TFIDF

1.基本理论

TF-IDF(term frequency–inverse document frequency)是一种用于信息检索与数据挖掘的常用加权技术。TF是词频(Term Frequency),IDF是逆文本频率指数(Inverse Document Frequency)。也就是说:一个词语在一篇文章中出现次数越多, 同时在所有文档中出现次数越少, 越能够代表该文章。

词频 (term frequency, TF) 指的是某一个给定的词语在该文件中出现的次数,在实际的任务中也可以是一个句子,需要结合具体的任务灵活变通。这个数字通常会被归一化,一般是词频除以文章总词数(同一个词语在长文件里可能会比短文件有更高的词频,而不管该词语重要与否), 以防止它偏向长的文件。找到一篇文献,其中词频

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/繁依Fanyi0/article/detail/614125
推荐阅读
相关标签
  

闽ICP备14008679号