当前位置:   article > 正文

ik分词和jieba分词哪个好_HMM、CRF、JIEBA以及IK的在ICWS2005-PKU训练集上中文分词效果的评价对比...

ik分词和jieba分词对比

根据ICWS2005中PKU语料训练得到的CRF模型[1],与常用的jieba和IK模型做了对比。评价包括每类的precision,recall,F1分数。macro average指的是每个分类的无权平均,weighted average指的是加权平均,accuracy指的是分类准确的字符占总字符比例。

jieba的评价结果,如图1:

ac54dfe3f047839805403e361c9b9be6.png
图1 jieba精确分词模型(HMM=True)在ICWS2005PKU测试集下的评价

ik的评价结果,如图2:

d34e386480401ae9f11c3fd59cfbcde9.png
图2 IK精确分词模型(ik_smart)在ICWS2005PKU测试集下的评价;IK默认不处理标点符号,在分词中将所有标点符号标记为BMES表记法中的S。

crf的评价结果,如图3:

8dccf8e53570f570eb829e1c337c42bb.png
图3 JIEBA分词模型在ICWS2005PKU测试集下的评价

hmm[2-3]的评价结果,如图4:

6f572de6f6a7686c641a0420c7ca4cde.png
图4 HMM分词模型在ICWS2005PKU测试集下的评价

可视化如图5:

1439ae997195ebac6fa8963688e207b0.png

可见,CRF模型[4]与其他三种常见模型相比,在分词效果上更好。

[1]基于CRF的中文分词模型. https://github.com/ShenDezhou/CRF

[2]隐马尔可夫模型;部分可见马尔可夫模型. https://zhuanlan.zhihu.com/p/106054580

[3]隐马尔可夫模型中文分词测试结果. https://zhuanlan.zhihu.com/p/106562090

[4]Conditional Random Field中文分词.https://zhuanlan.zhihu.com/p/107593308

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/不正经/article/detail/281541
推荐阅读
  

闽ICP备14008679号