当前位置:   article > 正文

中文文本中的关键词提取_extracttagswithweight

extracttagswithweight

基于 TF-IDF 算法进行关键词提取

倾向于过滤掉常见的词语,保留重要的词语。

jieba.analyse.extract_tags(sentence, topK=20, withWeight=False, allowPOS=())
  • 1
  • sentence:待提取文本
  • topK:返回 TF-IDF 权重最大的关键词个数,默认值为 20
  • withWeight:是否需要返回关键词权重值,默认值为 False
  • allowPOS:仅包括指定词性的词,默认值为空
import jieba.analyse

sentence = "自然语言处理是计算机科学领域与人工智能领域中的一个重要方向。" \
           "它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。" \
           "自然语言处理是一门融语言学、计算机科学、数学于一体的科学。" \
           "因此,这一领域的研究将涉及自然语言,即人们日常使用的语言," \
           "所以它与语言学的研究有着密切的联系,但又有重要的区别。" \
           "自然语言处理并不是一般地研究自然语言,而在于研制能有效地实现自然语言通信的计算机系统," \
           "特别是其中的软件系统。因而它是计算机科学的一部分。"
keywords = "  ".join(jieba.analyse.extract_tags(sentence, topK=20, withWeight=False, allowPOS=()))
print(keywords)
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11

自然语言 计算机科学 语言学 研究 领域 处理 通信 有效 软件系统 人工智能 实现 计算机系统 重要 一体 一门 日常 计算机 密切 数学 研制

import jieba.analyse

sentence = "自然语言处理是计算机科学领域与人工智能领域中的一个重要方向。" \
           "它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。" \
           "自然语言处理是一门融语言学、计算机科学、数学于一体的科学。" \
           "因此,这一领域的研究将涉及自然语言,即人们日常使用的语言," \
           "所以它与语言学的研究有着密切的联系,但又有重要的区别。" \
           "自然语言处理并不是一般地研究自然语言,而在于研制能有效地实现自然语言通信的计算机系统," \
           "特别是其中的软件系统。因而它是计算机科学的一部分。"
keywords = jieba.analyse.extract_tags(sentence, topK=10, withWeight=True, allowPOS=(['n', 'v']))
print(keywords)
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11

[(‘计算机科学’, 0.944278347636774), (‘语言学’, 0.5780022728625807), (‘领域’, 0.5237705363622581), (‘处理’, 0.5236311926477419), (‘人工智能’, 0.30509762566096776), (‘实现’, 0.30172453397354837), (‘计算机系统’, 0.293973739006129), (‘一体’, 0.23797146276870967), (‘计算机’, 0.2195091751896774), (‘数学’, 0.21317227341290323)]

基于 TextRank 算法进行关键词提取

jieba.analyse.textrank(sentence, topK=20, withWeight=False, allowPOS=())
  • 1
  • 接口参数同上
import jieba.analyse

sentence = "自然语言处理是计算机科学领域与人工智能领域中的一个重要方向。" \
           "它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。" \
           "自然语言处理是一门融语言学、计算机科学、数学于一体的科学。" \
           "因此,这一领域的研究将涉及自然语言,即人们日常使用的语言," \
           "所以它与语言学的研究有着密切的联系,但又有重要的区别。" \
           "自然语言处理并不是一般地研究自然语言,而在于研制能有效地实现自然语言通信的计算机系统," \
           "特别是其中的软件系统。因而它是计算机科学的一部分。"
keywords = "  ".join(jieba.analyse.textrank(sentence, topK=20, withWeight=False, allowPOS=('ns', 'n', 'vn', 'v')))
print(keywords)
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11

研究 领域 计算机科学 实现 处理 语言学 数学 人们 计算机 涉及 有着 一体 方法 语言 研制 使用 人工智能 在于 联系 科学

import jieba.analyse

sentence = "自然语言处理是计算机科学领域与人工智能领域中的一个重要方向。" \
           "它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。" \
           "自然语言处理是一门融语言学、计算机科学、数学于一体的科学。" \
           "因此,这一领域的研究将涉及自然语言,即人们日常使用的语言," \
           "所以它与语言学的研究有着密切的联系,但又有重要的区别。" \
           "自然语言处理并不是一般地研究自然语言,而在于研制能有效地实现自然语言通信的计算机系统," \
           "特别是其中的软件系统。因而它是计算机科学的一部分。"
keywords = "  ".join(jieba.analyse.textrank(sentence, topK=20, withWeight=False, allowPOS=('n', 'v')))
print(keywords)
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11

领域 计算机科学 处理 计算机 实现 语言学 数学 人们 一体 方法 有着 语言 使用 人工智能 进行 计算机系统 涉及 科学 理论 联系

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/2023面试高手/article/detail/348524
推荐阅读
相关标签
  

闽ICP备14008679号