赞
踩
需要源码和字典集请点赞关注收藏后评论区留言私信~~~
规则分词核心内容是建立人工专家词典库,通过将语句切分出的单词串与专家词典库中的所有词语进行逐一匹配,匹配成功则进行对象词语切分,否则通过增加或者减少一个字继续比较,直到剩下一个单字终止匹配操作。
按照匹配算法和查找方向,可以分为正向最大匹配法、逆向最大匹配法与双向匹配法三种方法。
正向最大匹配(Maximum Match Method :MMM) 算法操作方向为从左至右,无法匹配时删除最右边字符,其主要步骤:
(1)确定专家词典中所有词汇的最长词语的长度N;
(2)选取处理对象字符串从左至右的前N个字符,以此为匹配字段查找专家词典,如果刚好找到字符个数和字符内容都一致的词语,则匹配操作成功,按照该匹配字段对对象字符串进行切分;
(3)若词典中无法找到完全一致的词,则匹配操作失败,此时将匹配宇段中的最右边一个字符删除;
(4)对剩下的字符串重新进行匹配处理,如此循环操作直到所有字符匹配成功或者剩余字符串的长度为零为止。若匹配宇段长度为1,表示该单字符无法再切分。
下面是基于正向最大匹配算法的实例
匹配对象字符串:中国当代大学生的实践创新能力已经取得了巨大的进步
专家字典库:{中国,当代,吗,大学生,创新,能力,进步,已经,取得,实践,发展,的,了,巨大,明显}
匹配结果如下
可见从左到右完美的匹配出了原字符串内容
部分代码如下
- # 正向最大匹配算法
- class Maximum_Match(object):
- # 初始化操作,获取专家词典文件所在路径
- def __init__(self, directory):
- # 初始化专家词典最长词语长度
- self.max_length = 0
- # 创建一个空元素集,存放切分结果
- self.out = set()
- # 打开包含专家词典内容的文件
- with open(directory, 'r', encoding='utf8') as c:
- # 按行顺序读入专家词典内容
- for word in c:
- #移除字符串头尾空格
- word = word.strip()
- # 保存去除两端空格符后的专家字典词语
- self.out.add(word)
- # 根据切分结果更新专家词典最长词语长度
- if len(word) > self.max_length:
- self.max_length = len(word)
- #切分函数,传入需要切分的对象字符串
- def tokenization(self, content,result = []):
- #获得专家词典最长词语长度N
- N = self.max_length
- #获得切分对象字符串总长度
- content_length = len(content)
- ):]
- #获取新对象字符串的新长度
- content_length = len(content)
- return result
- #主处理函数
- if __name__ == '__main__':
- #设置对象字符串
- content = "中国当代大学生的实践创新能力已经取得了巨大的进步"
- #获取专家字典内容和位置
- t = Maximum_Match('./database.utf8')
- #调用切分函数输出结果
- print(t.tokenization(content))
逆向最大匹配(Reverse Match Method :RMM) 算法基本原理与正向最大匹配算法大致相同,但操作方向相反,主要步骤包括:
(1)确定专家词典中所有词汇的最长词语的长度N;
(2)选取处理对象字符串从右至左的后N个字符,以此为匹配字段查找专家词典,如果刚好找到字符个数和字符内容都一致的词语,则匹配操作成功,按照该匹配字段对对象字符串进行切分;
(3)若词典中无法找到完全一致的词,则匹配操作失败,此时将匹配宇段中的最左边一个字符删除;
(4)对剩下的字符串重新进行匹配处理,如此循环操作直到所有字符匹配成功或者剩余字符串的长度为零为止。若匹配宇段长度为1,表示该单字符无法再切分。
字符串和专家字典库同上 此处不再赘述
测试效果如下
部分代码如下
- # 逆向最大匹配算法
- class Reverse_Match(object):
- # 初始化操作,获取专家词典文件所在路径
- def __init__(self, directory):
- # 初始化专家词典最长词语长度
- self.max_length = 0
- # 创建一个空元素集,存放切分结果
- self.out = set()
- # 打开包含专家词典内容的文件
- with open(directory, 'r', encoding='utf8') as c:
- # 按行顺序读入专家词典内容
- for word in c:
- #移除字符串头尾空格
- word = word.strip()
- # 保存去除两端空格符后的专家字典词语
- self.out.add(word)
- # 根据切分结果更新专家词典最长词语长度
- if len(word) > self.max_length:
- self.max_length = len(word)
- #切分函数,传入需要切分的对象字符串
- def tokenization(self, content,result = []):
- #获得专家词典最长词语长度N
- N = self.max_length
- #获得切分对象字符串总长度
- content_length = len(content)
- while content_length > 0:
- #从右至左切分对象字符串的最后N个字符
- ntent)
- return result
- #主处理函数
- if __name__ == '__main__':
- #设置对象字符串
- content = "中国当代大学生的实践创新能力已经取得了巨大的进步"
- #获取专家字典内容和位置
- t = Reverse_Match('./database.utf8')
- #调用切分函数输出结果
- print(t.tokenization(content))
双向最大匹配法(BMM)将正向匹配法得到的分词结果和逆向匹配法得到的结果进行对比操作,根据最大匹配原则,选取切分后词数最少的匹配作为结果
创作不易 觉得有帮助请点赞关注收藏~~~
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。