NLP 关键词提取技术_nlp关键词提取

作者：weixin_40725706 | 2024-05-04 01:01:33

踩

nlp关键词提取

提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档

文章目录

前言
一、TF-IDF算法
二、TextRank算法

前言

关键词提取技术可以应用到自动形成文章摘要
分为有监督学习和无监督学习，有监督学习需要生成一个字典，然后让需要检测的文章去匹配这个字典。无监督学习则不需要，它是通过算法来直接提取关键字。

一、TF-IDF算法

这是一种基于统计学的算法，TF是指从文章中提取词频最高的词语，IDF是从一系列文章中提取使用率最低的词语，这样就可以方便对文章进行分类。

二、TextRank算法

textrank是基于pagerank得来的，PageRank是谷歌用于检测文章关联性，textrank词与词之间没有关联性，每个词不是与所有词都有关联性，也就是说文章的每一个词一开始都是白纸，是通过把词分组，计算每个词之间的权重，来得到关键词。
比如：世界献血日学校团体献血服务
第一组：【世界献血日学校】
第二组：【献血日学校团体】




# LSA/LSI/LDA算法
这一部分实际上是将关键词抽象的提取出来，文章中的关键词不一定会出现，比如 兔子 老虎 小猫，那么关键词应该是什么？“动物”。这一类算法就是为了解决这些问题的。

此文章只为了记录学习过程
1
2
3
4
5
6
7

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/weixin_40725706/article/detail/532361?site