赞
踩
根据ICWS2005中PKU语料训练得到的CRF模型[1],与常用的jieba和IK模型做了对比。评价包括每类的precision,recall,F1分数。macro average指的是每个分类的无权平均,weighted average指的是加权平均,accuracy指的是分类准确的字符占总字符比例。
jieba的评价结果,如图1:
ik的评价结果,如图2:
crf的评价结果,如图3:
hmm[2-3]的评价结果,如图4:
可视化如图5:
可见,CRF模型[4]与其他三种常见模型相比,在分词效果上更好。
[1]基于CRF的中文分词模型. https://github.com/ShenDezhou/CRF
[2]隐马尔可夫模型;部分可见马尔可夫模型. https://zhuanlan.zhihu.com/p/106054580
[3]隐马尔可夫模型中文分词测试结果. https://zhuanlan.zhihu.com/p/106562090
[4]Conditional Random Field中文分词.https://zhuanlan.zhihu.com/p/107593308
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。