赞
踩
正向最大匹配、逆向最大匹配、最大概率法是最简单的三种分词方式。本文从这三种分词方法产生的错误入手,观察他们分词的优缺点。
从语料中选取了200个句子作为样本,分别用三种不同的分词方式进行分词,观察他们产生的错误,从而得出其中的规律。将错误的结果过滤掉重复的内容之后,得到的错误结果如下所示:
分词方式 | 正向最大匹配切分 | 逆向最大匹配切分 | 最大概率方法切分 |
交集型歧义 | 45 | 41 | 7 |
未登录词语 | 167 | 171 | 171 |
组合型歧义 | 33 | 33 | 32 |
合计 | 245 | 245 | 210 |
组合型歧义: 种树 正确切分: 种/树 错误切分: 种树
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。