赞
踩
然鹅,万事都有两面性,jieba 分词这么好用,也难免有缺陷。
第一大缺陷就是它占用内存太大了。jieba 分词自带了一套默认的字典文件dict.txt
,存放在xx/Lib/site-packages/jieba
路径下,文件大小接近 5M。5M 看起来不大,但是当 jieba 将其读入并生成字典树时,占用的内存差不多就上涨到 150M。当然了,150M 我们也能忍受,但是当我们需要把 jieba 部署到真正的生产环境,可能会使用多个 jieba 对象,这个时候内存占用率就会成倍的增加。那么如何减小 jieba 内存的占用呢?
既然 jieba 占据内存多的原因是字典树太大,那我们把dict.txt
文件瘦身一下不就好了?事实上,j
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。