赞
踩
当某些特定的词在jieba的词典中没有并且需要准确切分出来时,这是就需要在切分过程中引入自定义词典。自定义词典以TXT文件形式输入,每个词占据一行。然后再Python中读取即可。
示例:user_dict.txt的内容为 :自媒体大学
jieba.load_userdict('user_dict.txt')
jieba.lcut('我今天在自媒体大学吹了会儿风',cut_all=False) # 精确模式
实际应用中,很多语气助词或者人称代词都不是我们所关心的,在最终的结果中希望能够将其过滤掉,这时就需要建立停用词词典。
可以从网络上找到很多权威的中文停用词词典,在此基础上,可以再增加一些自定义的停用词,建立自己的停用词词典。
同样,用上面的案例,假如我们不希望分词结果中存在:‘我’、‘在’、‘了’。实现示例:
import jieba
stop_words = ['我','在','了']
result = [k for k in jieba.lcut('我今天在自媒体大学吹了会儿风',cut_all=False) if k not in stop_words]
print('引入停用词词典后结果:',result)
一种机械的分词方法。主要是通过维护词典,在切分语句时,将语句的每个字符串与词表中的词进行逐一匹配,找到则切分,否则不予切分。根据匹配切分方式的不同,主要分为三种方法:
主要思想:把每个词看做是由词的最小单位的各个字组成的,如果相连的字在不同的文本中出现的次数越多,就证明这相连的字很可能就是一个词。
统计分词方法不需要耗费人力维护词典,能较好地处理歧义和未登录词,是目前分词中非常主流的方法。但其分词的效果很依赖训练语料的质量,且计算量相较于机械分词要大得多。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。