赞
踩
原理:又叫机械分词方法、基于字符串匹配的分词方法。它是按照一定的策略将待分析的字符串与一个“充分大的”机器词典中的词条进行匹配,若在词典中找到某个字符串,则匹配成功(识别出一个词)。这是最简单的分词方法,但非常高效和常见。
常用的基于词典的分词方法如下:
如:“达观数据是一家大数据公司”,使用正向最大匹配法分词的结果为“达观/数据是一/家/大数据/公司”
如:使用逆向最大匹配法分词的结果为“达观/数据/是/一家/大数据/公司”
如:最小切分结果为“达观数据/是/一家/大数据公司”。
方法评价:它的速度很快,都是O(n)的时间复杂度,效果也可以。但缺点是对歧义和新词的处理不是很好,对词典中未出现的词没法进行处理,因此经常需要其他分词方法进行协作。
首先根据词典(可以是从训练语料中抽取出来的词典,也可以是外部词典)对句
赞
踩
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。