当前位置:   article > 正文

textrank4zh提取文本关键词和内容摘要_tr4提取摘要

tr4提取摘要

通过自然语言处理和机器学习封装的textrank4zh库可以实现对文本的关键词和内容摘要的提取
安装 pip3 install textrank4zh 依赖jieba >= 0.35, numpy >= 1.7.1, networkx >= 1.9.1
参考 github

# -*- coding: utf-8 -*-
from textrank4zh import TextRank4Keyword, TextRank4Sentence

content = """
唐朝人最爱的动物是什么?

从存世的美术作品来看,马,应该是当之无愧的最受唐人喜爱的第一名。

唐朝的画家,几乎都画过马。

不过,其中最有名气的、水平最高的就是曹霸和韩干。

曹霸没有留下作品,我们无法评价。但韩干确确实实有真迹留存于世。

比如说这幅《照夜白图》。
"""


tr4w = TextRank4Keyword()
def keywords(text):
    """
    :param text: 待提取文本信息
    :return: 返回结果
    """
    result = []
    tr4w.analyze(text=text, lower=True, window=2)
    for item in tr4w.get_keywords(20, word_min_len=1):
        # print(item.word, item.weight)  # word关键词 weight权重
        result.append((item.word))
    print(result)

    return result


tr4s = TextRank4Sentence()
def keysentence(text):
    """
    :param text: 待提取文本信息
    :return: 返回结果
    """
    tr4s.analyze(text=text, lower=True, source='all_filters')
    result = ''
    for item in tr4s.get_key_sentences(num=3):
        # print(item.index, item.weight, item.sentence)  # index是语句在文本中位置 weight是权重 sentence摘要
        result +=  item.sentence + ';'
    print(result)

    return result



if __name__ == '__main__':
    keywords(content)
    keysentence(content)
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
  • 14
  • 15
  • 16
  • 17
  • 18
  • 19
  • 20
  • 21
  • 22
  • 23
  • 24
  • 25
  • 26
  • 27
  • 28
  • 29
  • 30
  • 31
  • 32
  • 33
  • 34
  • 35
  • 36
  • 37
  • 38
  • 39
  • 40
  • 41
  • 42
  • 43
  • 44
  • 45
  • 46
  • 47
  • 48
  • 49
  • 50
  • 51
  • 52
  • 53
  • 54
声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/喵喵爱编程/article/detail/760597
推荐阅读
相关标签
  

闽ICP备14008679号