赞
踩
实验一
实验目的和要求:
掌握完全切分,正向最长匹配,逆向最长匹配,双向最长匹配,比较三种匹配效率。
实验过程:
1.基于字典、词库匹配的分词方法(基于规则)。这种方法是将待分的句子与一个充分大的词典中的词语进行匹配。常用的有:正向最大匹配,逆向最大匹配,最少切分法。实际应用中,将机械分词作为初分手段,利用语言信息提高切分准确率。优先识别具有明显特征的词,以这些词为断点,将原字符串分为较小字符串再机械匹配,以减少匹配错误率,或将分词与词类标注结合。
2.完全算法指的是,找出一段文本中的所有单词。这并不是标准意义上的分词,有些人将这个过程误称为分词,其实并不准确。
伪代码:
def fully_segment(text, dic):
word_list = []
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。