赞
踩
针对pip下载速度慢大家可以参考,【我的pip终于神速了】解决pip安装速度慢的问题
- 精确模式的分词
- 试图将句子最精确的分开,适合文本分析
import jieba content="我不可能学会NLP" print(jieba.lcut(content,cut_all=False))#精确模式 print(jieba.lcut(content,cut_all=True))#全模式 print(jieba.lcut_for_search(content))#搜索引擎模式
- 全模式分词
- 把句子中的所有可以成词的词语都扫描出来,速度快但不能消除歧义
- 搜索引擎模式分词
- 在精确模式的基础上,对长词在进行切分提高召回率,适合用于搜索引擎分词
- 使用用户自定义词典
import jieba content="八一双鹿更名为八一南昌篮球队" print(jieba.lcut(content,cut_all=False)) jieba.load_userdict("./userdict.txt") print(jieba.lcut(content,cut_all=False))
命名实体:通常将人名、地名、机构名等专有名词统称命名实体
识别出一段文本中可能存在的命名实体,并给出其在列表中的位置
import hanlp #识别器 recognizer=hanlp.load(hanlp.pretrained.ner.MSRA_NER_BERT_BASE_ZH) list1=list('鲁迅是中国作家.') list2=list('上海华安工业集团公司董事长谭旭光和秘书张婉霞来到美国纽约现代艺术博物馆参观') print(recognizer(list2))
词性标注以分词为基础,是对文本语言的另一个角度的理解
import jieba.posseg as pseg content="我爱自然语言处理" print(pseg.lcut(content))当用hanlp进行处理的时候报错了
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。