赞
踩
随着汉语言的广泛应用,中文信息处理成了一个重要的研究课题,常见于搜索引擎:信息检索、中外文自动翻译、数据挖掘技术、自然语言处理等领域。在处理的过程中,中文分词是最基础的一环。
nodeJieba
是结巴中文分词的 Node.js 版本实现, 由 CppJieba
提供底层分词算法实现,是兼具高性能和易用性两者的 Node.js 中文分词插件。
nodejieba模块支持以下3种分词模式:
(1) 精确模式,试图将句子最精准地切开。
(2) 全模式,将句子中所有可以成词的词语都扫描出来,速度非常快。
(3) 搜索引擎模式,在精确模式的基础上对长词再次切分。
noedejieba模块中提供了一系列函数,常用的有cut()函数、cutAll()函数、cutForSearch()函数、tag()函数、extract()函数。
1.cut()函数
用来做精确模式下的内容分词,仅有1个参数sentence,表示需要分词性的内容字符串格式。
2.cutAll()函数
用来做全模式下的内容分词,仅有1个参数sentence,表示需要分词性的内容字符串
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。