当前位置:   article > 正文

jieba textrank关键词提取 python_用Python给你的文本提取关键词

jieba.analyse.textrank权重结果写入 dataframe python
81be3c83092802b9494d58b0bc65c1d8.png

对代码、编程感兴趣的可以关注「老K玩代码」公众号和我交流!

分享代码、经验、项目和资讯


用Python给你的文本提取关键词

关键词提取是自然语言处理中常见的业务模块; 要实现关键词提取,Python已经有比较好的现成的开源库可以用,比如我今天要介绍的jieba。 让我们来看看如何进行关键词提取:

1. 导入jieba关键词提取模块

import jieba.analyse as ana
  • jieba被较多地应用于中文文本的自然语言处理,最常用到的功能是分词。
  • 但除了分词以外,它还有很多其它api接口给到我们,而今天要提到的关键词提取就是其中之一。

2. 用textrank方法获取关键词

keyword = ana.textrank(sentence)

可选参数说明: - topK: 输出的关键词数量,如果是None则全部关键词都输出; - withWeight: 输出的关键词是否附带textrank计算出来的权重值; - allowPOS: 该参数为列表,表示仅显示符合该参数设置词性的关键词; - withFlag: 输出的关键词是否附带词性;

TextRank TextRank算法是利用局部词汇之间关系(共现窗口)对后续关键词进行排序,直接从文本本身抽取。 参考详文: https://www.cnblogs.com/xueyinzhe/p/7101295.html

3. 用tfidf方法获取关键词

keyword = ana.tfied(sentence)

可选参数说明: - topK: 输出的关键词数量,如果是None则全部关键词都输出; - withWeight: 输出的关键词是否附带textrank计算出来的权重值; - allowPOS: 该参数为列表,表示仅显示符合该参数设置词性的关键词; - withFlag: 输出的关键词是否附带词性;

TFIDF TFIDF算法是利用根据词频和逆文档频率得出关键词的权重,直接从文本本身抽取。 参考详文: https://blog.csdn.net/zrc199021/article/details/53728499

4. 总结

  • TextRank于TFIDF相比,过于依赖分词结果,如果分词时,某些关键词被切分了,就会得到不同的结果;
  • 基于上述原因,TextRank在工业界实际应用时,会需要对部分切分的关键词进行合并操作;
  • TextRank在实际应用的效果稍差于TFIDF,在两者没有明显准确率、召回率差别的情况下,建议使用TFIDF;
  • TextRank涉及到迭代计算,所以提取关键词的速度稍慢于TFIDF;
  • jieba开源库的词典中,每个关键词都有初始权重,用于上述两种算法的运算。

往期精彩推荐:

  1. 「本周要闻」Linux 内核维护者难寻:“我不想被 Linus 喷”
  2. 「实用技巧」教你如何用PIL给gif文件降帧数
  3. 「热荐」大佬们推荐的Python入门书综述
  4. 大家都是怎么看乘风破浪的姐姐们「第二期」
  5. 「纪念」Python 2 时代结束了

如果你也对编程感兴趣,记得加老K玩代码公众号和我交流哦!

本文内容由网友自发贡献,转载请注明出处:【wpsshop博客】
推荐阅读
相关标签
  

闽ICP备14008679号