python jieba分词_从零开始学自然语言处理（八）—— jieba 黑科技

作者：小蓝xlanll | 2024-03-28 11:28:07

踩

from jieba import tokenizer

小编喜欢用 jieba 分词，是因为它操作简单，速度快，而且可以添加自定义词，从而让 jieba 分出你想要分出的词，特别适用于特定场景的中文分词任务。

然鹅，万事都有两面性，jieba 分词这么好用，也难免有缺陷。
第一大缺陷就是它占用内存太大了。jieba 分词自带了一套默认的字典文件dict.txt，存放在xx/Lib/site-packages/jieba路径下，文件大小接近 5M。5M 看起来不大，但是当 jieba 将其读入并生成字典树时，占用的内存差不多就上涨到 150M。当然了，150M 我们也能忍受，但是当我们需要把 jieba 部署到真正的生产环境，可能会使用多个 jieba 对象，这个时候内存占用率就会成倍的增加。那么如何减小 jieba 内存的占用呢？

结巴瘦身

既然 jieba 占据内存多的原因是字典树太大，那我们把dict.txt文件瘦身一下不就好了？事实上，j

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/小蓝xlanll/article/detail/329811