当前位置:   article > 正文

ik分词器 分词原理_中文分词器如何选择 jieba ik-analyzer ansj_seg HanLP

ik分词器是否支持词性标注

一、几个项目github star对比

在网上可以看到很多中文分词器的文章,但是都没说明白到底选择什么。当然一般来说没有最好的只有最合适的,在分词能力、繁体支持等等都可考虑的方向。当然github上的star也可以作为开源项目选择的一个依据。

  • HanLP github 21.4k star
https://github.com/hankcs/HanLP​github.com
  • jieba github 24.9k star
fxsjy/jieba​github.com
6773b81ea0f411f0e444b1befbe6f586.png
  • ik-analyzer github 589 star

可以看到ik-analyzer和es solr等都有集成好像589star比较少,当然ik-analyzer主要是在code.google里,当最近一次code.google更新的版本也只是2012年的版本

wks/ik-analyzer​github.com

ansj_seg 5.7k

NLPchina/ansj_seg​github.com

个人建议使用jieba分词器

二、具体说明

(1)Hanlp分词器

hankcs/HanLP​github.com

最短路径分词,有中文分词、词性标注、新词识别、命名实体识别、自动摘要、文本聚类、情感分析、词向量word2vec等功能,支持自定义词典;

采用HMM、CRF、TextR

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/小桥流水78/article/detail/966536
推荐阅读
  

闽ICP备14008679号