赞
踩
在网上可以看到很多中文分词器的文章,但是都没说明白到底选择什么。当然一般来说没有最好的只有最合适的,在分词能力、繁体支持等等都可考虑的方向。当然github上的star也可以作为开源项目选择的一个依据。
可以看到ik-analyzer和es solr等都有集成好像589star比较少,当然ik-analyzer主要是在code.google里,当最近一次code.google更新的版本也只是2012年的版本
wks/ik-analyzergithub.comansj_seg 5.7k
NLPchina/ansj_seggithub.com个人建议使用jieba分词器
(1)Hanlp分词器
hankcs/HanLPgithub.com最短路径分词,有中文分词、词性标注、新词识别、命名实体识别、自动摘要、文本聚类、情感分析、词向量word2vec等功能,支持自定义词典;
采用HMM、CRF、TextR
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。