当前位置:   article > 正文

pytorch 文本预处理 jieba hanlp 命名实体识别词性标注_python jieba 实体识别

python jieba 实体识别

预处理

jieba中文分词

1.首先对文本进行n_gram分词
2.根据上一步的结果 对词典的的词语进行对比
3.获取对比后的结果 就是分词结果

中文简体分词
也可以进行中文繁体分词

import jieba
content = "工信处女干事每月经过下属科室都要亲口交代24口交换机等技术性器件的安装工作"
# 根据是否能组成词语进行分词,并且不存在重复
x = jieba.lcut(content, cut_all=False)
print(x)
# 根据是否能组成词语进行分词,存在重复
x = jieba.lcut(content, cut_all=True)
print(x)
# 返回的是一个迭代器
x = jieba.cut(content, cut_all=True)
print(next(x))
# 搜索引擎模式 对比较长的词 再次进行划分 适用于搜索引擎分词
x = jieba.lcut_for_search(content)
print(x)
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
  • 14

用户也可以进行自定义一个词典

hanlp

import hanlp

# 中文分词
content = "工信处女干事每月经过下属科室都要亲口交代24口交换机等技术性器件的安装工作"
tokenizer = hanlp.load('CTB6_CONVSEG')  # 加载预训练模型
a = tokenizer(content)
print(a)

# 英文分词
# tokenizer = hanlp.utils.rules.tokenize_english
from hanlp.utils.lang.en.english_tokenizer import tokenize_english
tokenizer = tokenize_english

b = tokenizer('Mr. Hankcs bought hankcs.com for 1.5 thousand dollars.')
print(b)
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
  • 14
  • 15

命名实体识别(NER)

在这里插入图片描述

词性标注(POS)

在这里插入图片描述

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/盐析白兔/article/detail/588824
推荐阅读
相关标签
  

闽ICP备14008679号