当前位置:   article > 正文

jieba分词、关键词提取使用;hanlp 分词、词性、ner使用_jieba.analyse.extract_tags添加词性

jieba.analyse.extract_tags添加词性

1、jieba使用

load_userdictkey自己添加关键词文件
cut_all=False或Truek表示精准或者默认
analyse.extract_tags 分析词频
jieba.suggest_freq(“美妆”,tune=True) #True表示希望分出来,False表示不希望分出来。
withWeight : 为是否一并返回关键词权重值,默认值为 False

import jieba
import jieba.analyse

# jieba.load_userdict(r"C:\Users\Lavector\Desktop\jieba.txt")
jieba.suggest_freq("美妆",tune=True)
res = jieba.cut("#遇见美妆##美妆情报局#NARS这盘新的限量六色眼影盘新发售了!配色很清新,压盘也很美,粉很细,虽然小小一盘但是还是很有质感。颜色都比较寡淡,好几个颜色都是适合打底,但是有很美的偏光,当单色眼影用也不错。",cut_all=False,HMM=False)
# res = jieba.cut("美妆NARS裸光透明色蜜粉饼1412#,超奇妙的粉饼,高清蜜粉的透明色,闪光灯下有微微反光粒子,粉质又密又细又实,手指使劲蹭也蹭不出多少,刷子轻轻刷却很上粉,上皮肤有提亮的柔光效果和填平纹路的感觉,控油效果也很好,自带2000万柔光双摄效果。",cut_all=False,HMM=False)
print(list(res))
# for i in res:
#     print(i)

# sentence :为待提取的文本
# topK: 为返回几个 TF/IDF 权重最大的关键词,默认值为 20
# withWeight : 为是否一并返回关键词权重值,默认值为 False
# allowPOS : 仅包括指定词性的词,默认值为空,即不筛选
aaa=jieba.analyse.extract_tags("#遇见美妆##美妆情报局#NARS这盘新的限量六色眼影盘新发售了!配色很清新,压盘也很美,粉很细,虽然小小一盘但是还是很有质感。颜色都比较寡淡,好几个颜色都是适合打底,但是有很美的偏光,当单色眼影用也不错。", topK=5, withWeight=True)

print(aaa)
for item in aaa:
    print(item[0],item[1])


  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
  • 14
  • 15
  • 16
  • 17
  • 18
  • 19
  • 20
  • 21
  • 22

在这里插入图片描述
在这里插入图片描述

import jieba.posseg as pseg

def extract_chinese_names(text):
    # 使用jieba进行分词和词性标注
    words = pseg.cut(text)
    
    # 提取人名实体
    person_names = []
    for word, flag in words:
        if flag == 'nr':  # 词性标注为人名
            person_names.append(word)
    
    return person_names

# 测试
text = "张三、李四,胡一明一起去了公园。"
names = extract_chinese_names(text)
print(names)
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
  • 14
  • 15
  • 16
  • 17
  • 18

2、hanlp使用

参考:https://notebooks.gesis.org/binder/jupyter/user/hankcs-hanlp-c6dgg7ow/notebooks/plugins/hanlp_demo/hanlp_demo/zh/tutorial.ipynb

安装:

pip install  hanlp -i http://pypi.douban.com/simple --trusted-host pypi.douban.com
  • 1

使用:

import hanlp
HanLP = hanlp.load(hanlp.pretrained.mtl.CLOSE_TOK_POS_NER_SRL_DEP_SDP_CON_ELECTRA_SMALL_ZH) # 世界最大中文语料库,首先下载


doc = HanLP(['2021年HanLPv2.1为生产环境带来次世代最先进的多语种NLP技术。', '阿婆主来到北京立方庭参观自然语义科技公司。'])
print(doc)

doc.pretty_print()
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8

在这里插入图片描述

指定任务
##分词
HanLP('阿婆主来到北京立方庭参观自然语义科技公司。', tasks='tok').pretty_print()

### 执行粗颗粒度分词
HanLP('阿婆主来到北京立方庭参观自然语义科技公司。', tasks='tok/coarse').pretty_print()



### 执行分词和PKU词性标注
HanLP('阿婆主来到北京立方庭参观自然语义科技公司。', tasks='pos/pku').pretty_print()

### 执行粗颗粒度分词和PKU词性标注
HanLP('阿婆主来到北京立方庭参观自然语义科技公司。', tasks=['tok/coarse', 'pos/pku'], skip_tasks='tok/fine').pretty_print()

### 执行分词和MSRA标准NER
HanLP('阿婆主来到北京立方庭参观自然语义科技公司。', tasks='ner/msra').pretty_print()


  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
  • 14
  • 15
  • 16
  • 17
  • 18

在这里插入图片描述

### 执行分词、词性标注和依存句法分析

doc = HanLP('阿婆主来到北京立方庭参观自然语义科技公司。', tasks=['pos', 'dep'])
doc.pretty_print()
print(doc.to_conll()) ##转换为CoNLL格式
  • 1
  • 2
  • 3
  • 4
  • 5

在这里插入图片描述

### 执行分词、词性标注和短语成分分析
doc = HanLP('阿婆主来到北京立方庭参观自然语义科技公司。', tasks=['pos', 'con'])
doc.pretty_print()
  • 1
  • 2
  • 3
声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/繁依Fanyi0/article/detail/348522
推荐阅读
相关标签
  

闽ICP备14008679号