赞
踩
- import jieba
-
- text = '工信处女干事每月经过下属科室都要亲口交代24口交换机等技术性器件的安装工作 '
-
- ret = jieba.cut(text, cut_all=False) # cut_all默认为False
- # 将返回一个生成器对象
- print(ret)
- print(list(ret))
-
- # 若需直接返回列表内容, 使用jieba.lcut()
- ret2 = jieba.lcut(text, cut_all=False)
- print(ret2)
- import jieba
-
- text = '工信处女干事每月经过下属科室都要亲口交代24口交换机等技术性器件的安装工作 '
-
- ret = jieba.cut(text, cut_all=True) # cut_all默认为False
- # 将返回一个生成器对象
- print(ret)
- print(list(ret))
-
- # 若需直接返回列表内容, 使用jieba.lcut()
- ret2 = jieba.lcut(text, cut_all=True)
- print(ret2)
- import jieba
-
- text = '工信处女干事每月经过下属科室都要亲口交代24口交换机等技术性器件的安装工作 '
-
- ret = jieba.cut_for_search(text)
- # 将返回一个生成器对象
- print(ret)
- print(list(ret))
-
- # 若需直接返回列表内容, 使用jieba.lcut_for_search()
- ret2 = jieba.lcut_for_search(text)
- print(ret2)
- import jieba
-
- text = '煩惱即是菩提,我暫且不提 '
-
- ret = jieba.lcut(text)
- print(ret)
- 韩玉赏鉴 3 nz
- 八一双鹿 3 nz
- import jieba
-
- text = '八一双鹿更名为八一南昌篮球队!'
-
- # 没有使用用户自定义词典前的结果:
- ret = jieba.lcut(text)
- print(ret)
-
- jieba.load_userdict('./userdict.txt')
- # 使用了用户自定义词典后的结果:
- ret = jieba.lcut(text)
- print(ret)
- # 使用pip进行安装
- pip install hanlp
为了避免不必要的各种报错,直接安装最全的hanlp版本,命令如下
pip install hanlp[full]
这个过程中可能会更新你的tensorflow到更新的版本和hanlp匹配
- import hanlp
-
- text = '工信处女干事每月经过下属科室都要亲口交代24口交换机等技术性器件的安装工作'
- # 加载CTB_CONVSEG预训练模型进行分词任务
- tokenizer = hanlp.load('CTB6_CONVSEG')
- ret = tokenizer(text)
- print(ret)
- # 进行英文分词, 英文分词只需要使用规则即可
- tokenizer = hanlp.utils.rules.tokenize_english
- ret = tokenizer('I love you very much!')
- print(ret)
鲁迅, 浙江绍兴人, 五四新文化运动的重要参与者, 代表作朝花夕拾. ==> 鲁迅(人名) / 浙江绍兴(地名)人 / 五四新文化运动(专有名词) / 重要参与者 / 代表作 / 朝花夕拾(专有名词)
- import hanlp
-
- # 加载中文命名实体识别的预训练模型MSRA_NER_BERT_BASE_ZH
- recognizer = hanlp.load(hanlp.pretrained.ner.MSRA_NER_BERT_BASE_ZH)
- # 这里注意它的输入是对句子进行字符分割的列表, 因此在句子前加入了list()
- # list('上海华安工业(集团)公司董事长谭旭光和秘书张晚霞来到美 国纽约现代艺术博物馆参观。')
- # ['上', '海', '华', '安', '工', '业', '(', '集', '团', ')', '公', '司', '董', '事', '长', '谭', '旭', '光', '和', '秘', '书', '张', '晚', '霞', '来', '到', '美', '国', '纽', '约', '现', '代', '艺', '术', '博', '物', '馆', '参', '观', '。']
- ret = recognizer(list('上海华安工业(集团)公司董事长谭旭光和秘书张晚霞来到美国纽约现代艺术博物馆参观。'))
- print(ret)
- # [('上海华安工业(集团)公司', 'NT', 0, 12), ('谭旭光', 'NR', 15, 18), ('张晚霞', 'NR', 21, 24), ('美国', 'NS', 26, 28), ('纽约现代艺术博物馆', 'NS', 28, 37)]
-
- # 返回结果是一个装有n个元组的列表, 每个元组代表一个命名实体, 元组中的每一项分别代表具体的命名实体, 如: '上海华安工业(集团)公司'; 命名实体的类型, 如: 'NT'-机构名; 命名实体的开始索引和结束索引, 如: 0, 12.
- import hanlp
-
- # 加载英文命名实体识别的预训练模型CONLL03_NER_BERT_BASE_UNCASED_EN
- recognizer = hanlp.load(hanlp.pretrained.ner.CONLL03_NER_BERT_BASE_UNCASED_EN)
-
- # 这里注意它的输入是对句子进行分词后的结果, 是列表形式.
- ret = recognizer(["President", "Obama", "is", "speaking", "at", "the", "White", "House"])
- print(ret)
- # [('Obama', 'PER', 1, 2), ('White House', 'LOC', 6, 8)]
- # 返回结果是一个装有n个元组的列表, 每个元组代表一个命名实体, 元组中的每一项分别代>表具体的命名实体, 如: 'Obama', 如: 'PER'-人名; 命名实体的开始索引和结束索引, 如: 1, 2.
- 我爱自然语言处理
-
- ==>
-
- 我/rr, 爱/v, 自然语言/n, 处理/vn
-
- rr: 人称代词
- v: 动词
- n: 名词
- vn: 动名词
- import jieba.posseg as pseg
-
- ret = pseg.lcut('我爱北京天安门')
- print(ret)
- import hanlp
-
- # 加载中文命名实体识别的预训练模型CTB5_POS_RNN_FASTTEXT_ZH
- tagger = hanlp.load(hanlp.pretrained.pos.CTB5_POS_RNN_FASTTEXT_ZH)
-
- # 输入是分词结果列表
- ret = tagger(['我', '的', '希望', '是', '希望', '和平'])
-
- # 返回对应的词性
- print(ret) # ['PN', 'DEG', 'NN', 'VC', 'VV', 'NN']
- import hanlp
-
- # 加载英文命名实体识别的预训练模型PTB_POS_RNN_FASTTEXT_EN
- tagger = hanlp.load(hanlp.pretrained.pos.PTB_POS_RNN_FASTTEXT_EN)
- # 输入是分词结果列表
- ret = tagger(['I', 'banked', '2', 'dollars', 'in', 'a', 'bank', '.'])
- # 返回对应的词性
- print(ret) # ['PRP', 'VBD', 'CD', 'NNS', 'IN', 'DT', 'NN', '.']
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。