当前位置:   article > 正文

中文分词方法Precision、Recall、F1值对比_计算文本间的f1值

计算文本间的f1值

目录

手动实现分词方法:前向最长匹配分词算法

中文分词方法Percision、Recall、F1值计算公式

分词效果对比:jieba、hanlp、thulac、前向最长匹配法

分析

代码链接


手动实现分词方法:前向最长匹配分词算法

1.切分pku_training.utf8训练集:70%用于字典建立,30%用于测试分析方法的性能。

2.利用训练集70%的数据进行分词方法字典的建立。

3.对剩余30%的数据进行中文分词,获得分词结果。

4.计算分词结果的Precision、Recall、F1值。

中文分词方法Percision、Recall、F1值计算公式

1.确定每个分析结果所在的区间,标准答案构成的集合A作为正类,分词结果构成的区间集合记为集合B。

2.Percision计算公式:P = |A∩B|/|B|

3.Recall计算公式:R = |A∩B|/|A|

4.F1计算公式:F1 = 2*P*R/(P+R)

分词效果对比:jieba、hanlp、thulac、前向最长匹配法

分词方法PercisionRecallF1
hanlp0.8670.79950.8319
jieba0.51950.48560.502
thulac0.57610.56870.5724
前向最长匹配0.31230.32320.3176

分析

1.前向最长匹配方法的字典中含有的词数量较少,jieba等分词方法拥有大量的语料库,导致前向最长匹配算法与开源方法的性能相差较大。

2.在实现前向最长匹配方法时没有对分词进行优化,对于年份月份等数字与汉字组成的词没有进行特殊的分词处理,导致结果中很多年份月份分词结果错误,导致实现的前向最长匹配方法性能低。

代码链接

实现代码

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/凡人多烦事01/article/detail/346020
推荐阅读
相关标签
  

闽ICP备14008679号