python 使用jieba.analyse提取句子级的关键字

作者：知新_RL | 2024-03-15 18:03:13

踩

jieba.analyse

安装所需要的库

jieba(pip install jieba)

方法参数解释

jieba.analyse.extract_tags(sentence, topK=5, withWeight=True, allowPOS=())
参数说明：
sentence 需要提取的字符串，必须是str类型，不能是list
topK 提取前多少个关键字
withWeight 是否返回每个关键词的权重
allowPOS是允许的提取的词性，默认为allowPOS=‘ns’, ‘n’, ‘vn’, ‘v’，提取地名、名词、动名词、动词

原理

jieba.analyse.extract_tags()提取关键字的原理是使用TF-IDF算法

在这里插入图片描述

python 实现使用jieba.analyse提取句子级的关键字

# -*- coding: utf-8 -*-
# @Time    : 2019/5/11 11:18
# @Author  : 未来战士biubiu！！
# @FileName: __init__.py.py


# python提取句子中的关键字
import jieba.analyse
import random,os

os.chdir('D:\DOCUMENT/U1\Python3_Demo\TL_NER\DATA')

f_tar = open('fenci_data_target.txt', 'r', encoding='utf-8')

data_tar = f_tar.readlines()

#随机从txt文件中提取50行
ran_tar = random.sample(data_tar, 50)

for src in ran_tar:
    src_temp = src.strip()
    print('src_temp',src_temp)
    print(jieba.analyse.extract_tags(sentence=src_temp,topK=10,allowPOS=('ns','n')))


1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25

运行结果

在这里插入图片描述
感觉效果还是不错的，我只提取了名词和地点。
文件是我一个旅游项目的数据，从中随机抽取了50行作为备选文字。

声明：本文内容由网友自发贡献，转载请注明出处：【wpsshop】