赞
踩
- def keywords_textrank(text):
- keywords = jieba.analyse.textrank(text, topK=6)
- return keywords
- def keywords_extraction(text):
- tr4w = TextRank4Keyword(allow_speech_tags=['n', 'nr', 'nrfg', 'ns', 'nt', 'nz'])
- # allow_speech_tags --词性列表,用于过滤某些词性的词
- tr4w.analyze(text=text, window=2, lower=True, vertex_source='all_filters', edge_source='no_stop_words',
- pagerank_config={'alpha': 0.85, })
- # text -- 文本内容,字符串
- # window -- 窗口大小,int,用来构造单词之间的边。默认值为2
- # lower -- 是否将英文文本转换为小写,默认值为False
- # vertex_source -- 选择使用words_no_filter, words_no_stop_words, words_all_filters中的哪一个来构造pagerank对应的图中的节点
- # -- 默认值为`'all_filters'`,可选值为`'no_filter', 'no_stop_words', 'all_filters'
- # edge_source -- 选择使用words_no_filter, words_no_stop_words, words_all_filters中的哪一个来构造pagerank对应的图中的节点之间的边
- # -- 默认值为`'no_stop_words'`,可选值为`'no_filter', 'no_stop_words', 'all_filters'`。边的构造要结合`window`参数
-
- # pagerank_config -- pagerank算法参数配置,阻尼系数为0.85
- keywords = tr4w.get_keywords(num=6, word_min_len=2)
- # num -- 返回关键词数量
- # word_min_len -- 词的最小长度,默认值为1
- return keywords
- from textrank4zh import TextRank4Keyword # 导入相关模块
- import jieba.analyse
- if __name__ == '__main__': # 定义要提取的文本
- text = (" 燕山大学是河北省人民政府、教育部、工业和信息化部、国家国防科技工业局四方共建的全国重点大学,河北省重点支持的国家一流大学和世界一流学科建设高校,北京高科大学联盟成员。")
- tr4w = TextRank4Keyword() # 关键词提取
- #采用 TextRank4zh 的方式实现 TextRank 算法
- tr4w.analyze(text=text, lower=True, window=5)
- print(' 关键词 :')
- for item in tr4w.get_keywords(10, word_min_len=1):
- print(item['word'], item['weight'])
-
- #利用采用结巴分词工具的方式实现 TextRank 算法
- result = jieba.analyse.textrank(text,topK=5)
- print(result)
- # import jieba.analyse
- # from textrank4zh import TextRank4Keyword,TextRank4Sentence
- #关键短语抽取
- def keyphrases_extraction(text):
- tr4w = TextRank4Keyword()
- tr4w.analyze(text=text, window=2, lower=True, vertex_source='all_filters', edge_source='no_stop_words',
- pagerank_config={'alpha': 0.85, })
- keyphrases = tr4w.get_keyphrases(keywords_num=6, min_occur_num=1)
- # keywords_num -- 抽取的关键词数量
- # min_occur_num -- 关键短语在文中的最少出现次数
- return keyphrases
-
- #关键句抽取
- def keysentences_extraction(text):
- tr4s = TextRank4Sentence()
- tr4s.analyze(text, lower=True, source='all_filters')
- # text -- 文本内容,字符串
- # lower -- 是否将英文文本转换为小写,默认值为False
- # source -- 选择使用words_no_filter, words_no_stop_words, words_all_filters中的哪一个来生成句子之间的相似度。
- # -- 默认值为`'all_filters'`,可选值为`'no_filter', 'no_stop_words', 'all_filters'
- # sim_func -- 指定计算句子相似度的函数
-
- # 获取最重要的num个长度大于等于sentence_min_len的句子用来生成摘要
- keysentences = tr4s.get_key_sentences(num=3, sentence_min_len=6)
- return keysentences
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。