赞
踩
提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档
关键词提取技术可以应用到自动形成文章摘要
分为有监督学习和无监督学习,有监督学习需要生成一个字典,然后让需要检测的文章去匹配这个字典。无监督学习则不需要,它是通过算法来直接提取关键字。
这是一种基于统计学的算法,TF是指从文章中提取词频最高的词语,IDF是从一系列文章中提取使用率最低的词语,这样就可以方便对文章进行分类。
textrank是基于pagerank得来的,PageRank是谷歌用于检测文章关联性,textrank词与词之间没有关联性,每个词不是与所有词都有关联性,也就是说文章的每一个词一开始都是白纸,是通过把词分组,计算每个词之间的权重,来得到关键词。
比如:世界 献血日 学校 团体 献血 服务
第一组:【世界 献血日 学校】
第二组:【献血日 学校 团体 】
# LSA/LSI/LDA算法
这一部分实际上是将关键词抽象的提取出来,文章中的关键词不一定会出现,比如 兔子 老虎 小猫,那么关键词应该是什么?“动物”。这一类算法就是为了解决这些问题的。
此文章只为了记录学习过程
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。