赞
踩
1. 摘要
本次我们将开始新的分享系列——自然语言处理(NLP),NLP可以被应用于很多领域:机器翻译、情感分析、智能问答、文本分类等等。本次我们将分享中文自然语言处理的一个重要技术:中文分词技术。在通常的语言理解中,词是最小的能够独立活动的语言成分。只有将词确定下来,中文才能够向英文那样过渡到短语划分以及主题分析,以至自然语言处理。
2. 中文分词技术
由于汉语结构与欧体系语种差异较大,对词的构成边界方面很难进行定位。在英文中,单词本身就是词的表示,一篇英文文章就是单词加空格来表示。在汉语中,词以字为单位,但一篇汉语文章的语义却仍以词来划分。因此,在处理中文文档时,需要进行分词处理,将文档转换成词来表示。这个切词过程就是中文分词。通过计算机自动识别出句子的词,在词间加入边界标识符,分隔出各个词汇,主要的难点在于分词歧义。
中文分词主要有三个流派:规则分词、统计分词、混合分词。
3. 规则分词
规则分词:基于规则的分词是一种机械分词方法,主要是通过维护词典,将语句中的每一个字符串与词表中的词逐一匹配,匹配到就切分,否则不予切分。按照匹配切分的方式,主要有正向最大匹配法、逆向最大匹配法和双向最大匹配法。
正向最大匹配法思想:假设分词词典中的最长词有i个字符,那么用被处理文档的当前字符串的前i个字符作为匹配字段,查找字典。若字典中存在这样一个i长度字词,则匹配成功,匹配字段则被作为一个词切分出来。如果词典中找不到这样的一个i长度字词,则匹配失败。此时便将匹配字段中的最后一个字去掉&
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。