当前位置:   article > 正文

NLP 关键词提取技术_nlp关键词提取

nlp关键词提取

提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档


前言

关键词提取技术可以应用到自动形成文章摘要
分为有监督学习和无监督学习,有监督学习需要生成一个字典,然后让需要检测的文章去匹配这个字典。无监督学习则不需要,它是通过算法来直接提取关键字。

一、TF-IDF算法

这是一种基于统计学的算法,TF是指从文章中提取词频最高的词语,IDF是从一系列文章中提取使用率最低的词语,这样就可以方便对文章进行分类。

二、TextRank算法

textrank是基于pagerank得来的,PageRank是谷歌用于检测文章关联性,textrank词与词之间没有关联性,每个词不是与所有词都有关联性,也就是说文章的每一个词一开始都是白纸,是通过把词分组,计算每个词之间的权重,来得到关键词。
比如:世界 献血日 学校 团体 献血 服务
第一组:【世界 献血日 学校】
第二组:【献血日 学校 团体 】




# LSA/LSI/LDA算法
这一部分实际上是将关键词抽象的提取出来,文章中的关键词不一定会出现,比如 兔子 老虎 小猫,那么关键词应该是什么?“动物”。这一类算法就是为了解决这些问题的。

此文章只为了记录学习过程
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/weixin_40725706/article/detail/532361
推荐阅读
相关标签
  

闽ICP备14008679号