赞
踩
jieba(pip install jieba)
jieba.analyse.extract_tags(sentence, topK=5, withWeight=True, allowPOS=())
参数说明 :
sentence 需要提取的字符串,必须是str类型,不能是list
topK 提取前多少个关键字
withWeight 是否返回每个关键词的权重
allowPOS是允许的提取的词性,默认为allowPOS=‘ns’, ‘n’, ‘vn’, ‘v’,提取地名、名词、动名词、动词
jieba.analyse.extract_tags()提取关键字的原理是使用TF-IDF算法
# -*- coding: utf-8 -*- # @Time : 2019/5/11 11:18 # @Author : 未来战士biubiu!! # @FileName: __init__.py.py # python提取句子中的关键字 import jieba.analyse import random,os os.chdir('D:\DOCUMENT/U1\Python3_Demo\TL_NER\DATA') f_tar = open('fenci_data_target.txt', 'r', encoding='utf-8') data_tar = f_tar.readlines() #随机从txt文件中提取50行 ran_tar = random.sample(data_tar, 50) for src in ran_tar: src_temp = src.strip() print('src_temp',src_temp) print(jieba.analyse.extract_tags(sentence=src_temp,topK=10,allowPOS=('ns','n')))
感觉效果还是不错的,我只提取了名词和地点。
文件是我一个旅游项目的数据,从中随机抽取了50行作为备选文字。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。