赞
踩
目录
中文分词方法Percision、Recall、F1值计算公式
分词效果对比:jieba、hanlp、thulac、前向最长匹配法
1.切分pku_training.utf8训练集:70%用于字典建立,30%用于测试分析方法的性能。
2.利用训练集70%的数据进行分词方法字典的建立。
3.对剩余30%的数据进行中文分词,获得分词结果。
4.计算分词结果的Precision、Recall、F1值。
1.确定每个分析结果所在的区间,标准答案构成的集合A作为正类,分词结果构成的区间集合记为集合B。
2.Percision计算公式:P = |A∩B|/|B|
3.Recall计算公式:R = |A∩B|/|A|
4.F1计算公式:F1 = 2*P*R/(P+R)
分词方法 | Percision | Recall | F1 |
hanlp | 0.867 | 0.7995 | 0.8319 |
jieba | 0.5195 | 0.4856 | 0.502 |
thulac | 0.5761 | 0.5687 | 0.5724 |
前向最长匹配 | 0.3123 | 0.3232 | 0.3176 |
1.前向最长匹配方法的字典中含有的词数量较少,jieba等分词方法拥有大量的语料库,导致前向最长匹配算法与开源方法的性能相差较大。
2.在实现前向最长匹配方法时没有对分词进行优化,对于年份月份等数字与汉字组成的词没有进行特殊的分词处理,导致结果中很多年份月份分词结果错误,导致实现的前向最长匹配方法性能低。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。