赞
踩
对代码、编程感兴趣的可以关注「老K玩代码」公众号和我交流!
分享代码、经验、项目和资讯
用Python给你的文本提取关键词关键词提取是自然语言处理中常见的业务模块;
要实现关键词提取,Python已经有比较好的现成的开源库可以用,比如我今天要介绍的jieba。
让我们来看看如何进行关键词提取:
1. 导入jieba关键词提取模块
import jieba.analyse as anajieba被较多地应用于中文文本的自然语言处理,最常用到的功能是分词。
但除了分词以外,它还有很多其它api接口给到我们,而今天要提到的关键词提取就是其中之一。
2. 用textrank方法获取关键词
keyword = ana.textrank(sentence)
可选参数说明: - topK: 输出的关键词数量,如果是None则全部关键词都输出; - withWeight: 输出的关键词是否附带textrank计算出来的权重值; - allowPOS: 该参数为列表,表示仅显示符合该参数设置词性的关键词; - withFlag: 输出的关键词是否附带词性;TextRank
-- TextRank算法是利用局部词汇之间关系(共现窗口)对后续关键词进行排序,直接从文本本身抽取。
-- 参考详文: https://www.cnblogs.com/xueyinzhe/p/7101295.html
3. 用tfidf方法获取关键词
keyword = ana.tfied(sentence)
可选参数说明: - topK: 输出的关键词数量,如果是None则全部关键词都输出; - withWeight: 输出的关键词是否附带textrank计算出来的权重值; - allowPOS: 该参
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。