当前位置:   article > 正文

python jieba分词_从零开始学自然语言处理(八)—— jieba 黑科技

from jieba import tokenizer
c8d18412fe522000e7695e009c8751ce.gif 小编喜欢用 jieba 分词,是因为它操作简单,速度快,而且可以添加自定义词,从而让 jieba 分出你想要分出的词,特别适用于特定场景的中文分词任务。

然鹅,万事都有两面性,jieba 分词这么好用,也难免有缺陷。
第一大缺陷就是它占用内存太大了。jieba 分词自带了一套默认的字典文件dict.txt,存放在xx/Lib/site-packages/jieba路径下,文件大小接近 5M。5M 看起来不大,但是当 jieba 将其读入并生成字典树时,占用的内存差不多就上涨到 150M。当然了,150M 我们也能忍受,但是当我们需要把 jieba 部署到真正的生产环境,可能会使用多个 jieba 对象,这个时候内存占用率就会成倍的增加。那么如何减小 jieba 内存的占用呢?

2d4e5a518322258ce84b8f6066bc176e.gif

结巴瘦身

既然 jieba 占据内存多的原因是字典树太大,那我们把dict.txt文件瘦身一下不就好了?事实上,j

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/小蓝xlanll/article/detail/329811
推荐阅读
相关标签
  

闽ICP备14008679号