赞
踩
本文大量参考了《Python自然语言处理实战:核心技术与算法》一书。这本书代码托管在github上,地址是https://github.com/nlpinaction/learning-nlp 。此外,本文使用中文分词工具——jieba(结巴)分词来实现大部分算法。jieba分词的官网网址为:https://github.com/fxsjy/jieba文中若有错误之处,希望大家指出,我必定有则改之,无则加勉。有什么疑问,欢迎与我交流。
顾名思义,混合分词是结合多种分词算法的分词方法。其中最长用的是先基于规则分词,在使用统计分词算法对分类结果进行补充,特别是对未登录词和歧义词进行补充和修正。jieba(结巴)分词就是采用的这种方法。
(1) 需要分词的字符串;
(2) cut_all:是否采用全模式
(3) HMM:是否使用HMM模型;
(4) use_paddle:是否使用paddlepaddle(飞桨)。
注: jieba.cut()返回一个generator迭代器;jieba.lcut()返回一个list列表
import jieba
text="这是一段用来测试的文本。"
#全模式
result=jieba.cut(text,cut_all=True,HMM=True,use_paddle=False)
import jieba
text="这是一段用来测试的文本。"
#全模式
result=jieba.cut(text,cut_all=False)
import jieba
text="这是一段用来测试的文本。"
#全模式
result=jieba.cut_for_search(text,cut_all=False)
词性标注本质也是一个序列标注问题。因此用于中文分词的算法同样适用于词性标注任务。
中文分词、词性标注和命名实体识别是自然语言处理的基础技术,任何中文自然语言任务都必须对文本进行以上三不操作才能进行后续的分析处理。三者的关系非常紧密,所用的的算法和理论相互贯通。即三者的实质均为每个字在字符串中的序列标注问题。任何一个步骤处理效果的好坏都会影响到其他两个。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。