赞
踩
从大量文本中提取有用的关键信息是数据分析的一个重要环节。
Python 作为一门广泛应用于数据分析领域的编程语言,有着强大的文本处理库。
整理了几个用于文本关键词提取的优秀工具,一起学习下。
jieba 是一个中文分词库,可以将一段文本分割为单独的单词。可以使用 jieba 库来提取中文文本的关键词。
使用pip安装:
pip install jieba -i https://pypi.tuna.tsinghua.edu.cn/simple
这里使用清华大学的源地址
- import jieba.analyse
- text = "Python 是一个非常优秀的语言,它可以用于 Web 开发,人工智能,数据分析等领域。"
- # 抽取5个关键词
- keywords = jieba.analyse.extract_tags(text, topK=15)
- print(keywords)
输出:
TextRank算法可以用来从文本中提取关键词和摘要(重要的句子)。TextRank4ZH是针对中文文本的TextRank算法的python算法实现。
使用pip安装:
pip install scipy -i https://pypi.tuna.tsinghua.edu.cn/
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。