当前位置:   article > 正文

Nodejs也能做文本数据处理了,快来看看吧!_nodejieba

nodejieba

随着汉语言的广泛应用,中文信息处理成了一个重要的研究课题,常见于搜索引擎:信息检索、中外文自动翻译、数据挖掘技术、自然语言处理等领域。在处理的过程中,中文分词是最基础的一环。

nodejieba 简介

nodeJieba 是结巴中文分词的 Node.js 版本实现, 由 CppJieba 提供底层分词算法实现,是兼具高性能和易用性两者的 Node.js 中文分词插件。

nodejieba模块支持以下3种分词模式:

(1) 精确模式,试图将句子最精准地切开。

(2) 全模式,将句子中所有可以成词的词语都扫描出来,速度非常快。

(3) 搜索引擎模式,在精确模式的基础上对长词再次切分。

特点

  • 词典载入方式灵活,无需配置词典路径也可使用,需要定制自己的词典路径时也可灵活定制。
  • 底层算法实现是C++,性能高效。
  • 支持多种分词算法。
  • 支持动态补充词库。

常用API

noedejieba模块中提供了一系列函数,常用的有cut()函数、cutAll()函数、cutForSearch()函数、tag()函数、extract()函数

1.cut()函数用来做精确模式下的内容分词,仅有1个参数sentence,表示需要分词性的内容字符串格式。

2.cutAll()函数用来做全模式下的内容分词,仅有1个参数sentence,表示需要分词性的内容字符串

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/Monodyee/article/detail/243468
推荐阅读
相关标签
  

闽ICP备14008679号