赞
踩
通过自然语言处理和机器学习封装的textrank4zh库可以实现对文本的关键词和内容摘要的提取
安装 pip3 install textrank4zh 依赖jieba >= 0.35, numpy >= 1.7.1, networkx >= 1.9.1
参考 github
# -*- coding: utf-8 -*- from textrank4zh import TextRank4Keyword, TextRank4Sentence content = """ 唐朝人最爱的动物是什么? 从存世的美术作品来看,马,应该是当之无愧的最受唐人喜爱的第一名。 唐朝的画家,几乎都画过马。 不过,其中最有名气的、水平最高的就是曹霸和韩干。 曹霸没有留下作品,我们无法评价。但韩干确确实实有真迹留存于世。 比如说这幅《照夜白图》。 """ tr4w = TextRank4Keyword() def keywords(text): """ :param text: 待提取文本信息 :return: 返回结果 """ result = [] tr4w.analyze(text=text, lower=True, window=2) for item in tr4w.get_keywords(20, word_min_len=1): # print(item.word, item.weight) # word关键词 weight权重 result.append((item.word)) print(result) return result tr4s = TextRank4Sentence() def keysentence(text): """ :param text: 待提取文本信息 :return: 返回结果 """ tr4s.analyze(text=text, lower=True, source='all_filters') result = '' for item in tr4s.get_key_sentences(num=3): # print(item.index, item.weight, item.sentence) # index是语句在文本中位置 weight是权重 sentence摘要 result += item.sentence + ';' print(result) return result if __name__ == '__main__': keywords(content) keysentence(content)
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。