赞
踩
load_userdictkey自己添加关键词文件
cut_all=False或Truek表示精准或者默认
analyse.extract_tags 分析词频
jieba.suggest_freq(“美妆”,tune=True) #True表示希望分出来,False表示不希望分出来。
withWeight : 为是否一并返回关键词权重值,默认值为 False
import jieba import jieba.analyse # jieba.load_userdict(r"C:\Users\Lavector\Desktop\jieba.txt") jieba.suggest_freq("美妆",tune=True) res = jieba.cut("#遇见美妆##美妆情报局#NARS这盘新的限量六色眼影盘新发售了!配色很清新,压盘也很美,粉很细,虽然小小一盘但是还是很有质感。颜色都比较寡淡,好几个颜色都是适合打底,但是有很美的偏光,当单色眼影用也不错。",cut_all=False,HMM=False) # res = jieba.cut("美妆NARS裸光透明色蜜粉饼1412#,超奇妙的粉饼,高清蜜粉的透明色,闪光灯下有微微反光粒子,粉质又密又细又实,手指使劲蹭也蹭不出多少,刷子轻轻刷却很上粉,上皮肤有提亮的柔光效果和填平纹路的感觉,控油效果也很好,自带2000万柔光双摄效果。",cut_all=False,HMM=False) print(list(res)) # for i in res: # print(i) # sentence :为待提取的文本 # topK: 为返回几个 TF/IDF 权重最大的关键词,默认值为 20 # withWeight : 为是否一并返回关键词权重值,默认值为 False # allowPOS : 仅包括指定词性的词,默认值为空,即不筛选 aaa=jieba.analyse.extract_tags("#遇见美妆##美妆情报局#NARS这盘新的限量六色眼影盘新发售了!配色很清新,压盘也很美,粉很细,虽然小小一盘但是还是很有质感。颜色都比较寡淡,好几个颜色都是适合打底,但是有很美的偏光,当单色眼影用也不错。", topK=5, withWeight=True) print(aaa) for item in aaa: print(item[0],item[1])
import jieba.posseg as pseg def extract_chinese_names(text): # 使用jieba进行分词和词性标注 words = pseg.cut(text) # 提取人名实体 person_names = [] for word, flag in words: if flag == 'nr': # 词性标注为人名 person_names.append(word) return person_names # 测试 text = "张三、李四,胡一明一起去了公园。" names = extract_chinese_names(text) print(names)
参考:https://notebooks.gesis.org/binder/jupyter/user/hankcs-hanlp-c6dgg7ow/notebooks/plugins/hanlp_demo/hanlp_demo/zh/tutorial.ipynb
安装:
pip install hanlp -i http://pypi.douban.com/simple --trusted-host pypi.douban.com
使用:
import hanlp
HanLP = hanlp.load(hanlp.pretrained.mtl.CLOSE_TOK_POS_NER_SRL_DEP_SDP_CON_ELECTRA_SMALL_ZH) # 世界最大中文语料库,首先下载
doc = HanLP(['2021年HanLPv2.1为生产环境带来次世代最先进的多语种NLP技术。', '阿婆主来到北京立方庭参观自然语义科技公司。'])
print(doc)
doc.pretty_print()
##分词 HanLP('阿婆主来到北京立方庭参观自然语义科技公司。', tasks='tok').pretty_print() ### 执行粗颗粒度分词 HanLP('阿婆主来到北京立方庭参观自然语义科技公司。', tasks='tok/coarse').pretty_print() ### 执行分词和PKU词性标注 HanLP('阿婆主来到北京立方庭参观自然语义科技公司。', tasks='pos/pku').pretty_print() ### 执行粗颗粒度分词和PKU词性标注 HanLP('阿婆主来到北京立方庭参观自然语义科技公司。', tasks=['tok/coarse', 'pos/pku'], skip_tasks='tok/fine').pretty_print() ### 执行分词和MSRA标准NER HanLP('阿婆主来到北京立方庭参观自然语义科技公司。', tasks='ner/msra').pretty_print()
### 执行分词、词性标注和依存句法分析
doc = HanLP('阿婆主来到北京立方庭参观自然语义科技公司。', tasks=['pos', 'dep'])
doc.pretty_print()
print(doc.to_conll()) ##转换为CoNLL格式
### 执行分词、词性标注和短语成分分析
doc = HanLP('阿婆主来到北京立方庭参观自然语义科技公司。', tasks=['pos', 'con'])
doc.pretty_print()
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。