赞
踩
目前中文分词算法可分为三大类:基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法 。随着大规模语料库的建立,统计机器学习方法的研究和发展,基于统计的中文分词方法渐渐成为了主流方法,主要方法为:给出大量已经分词的文本,利用统计机器学习模型学习词语切分的规律(称为训练),从而实现对未知文本的切分。例如最大概率分词方法和最大熵分词方法等。
主要统计机器学习模型:
而NLP得工具包nltk处理中文的第一步障碍就是中文资料不是分好词的, 词语与词语之间没有空格。要使用nltk对中文进行处理, 首先的第一步就是中文分词(中文断词)。我们得认清现实,现实就是nltk不支持处理中文,因此,这个给国内很多自然语言处理的研究人员有了研究的空间了,国内目前几个比较好的中文分词工具如下:
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。