当前位置:   article > 正文

Elasticsearch中什么是 tokenizer、analyzer、filter ?_elasticsearch中tokenizer、filter和analyzer

elasticsearch中tokenizer、filter和analyzer


Elastic search 是一个能快速帮忙建立起搜索功能的,最好之一的引擎。

搜索引擎的构建模块 大都包含 tokenizers(分词器), token-filter(分词过滤器)以及 analyzers(分析器)。

这就是搜索引擎对数据处理和存储的方式,所以,通过上面的3个模块,数据就可以被轻松快速的查找。

下面讨论下, tokenizers(分词器), token-filter(分词过滤器)以及 analyzers(分析器)是如何工作的?

Tokenizers(分词器)

分词,就是将一个字符串,按照特定的规则打散为多个小的字符串的过程,按照专业术语说法就是就是打散为token(符号)。

举个例子:

Whitespace tokenizer (空格分词器)
空格分词器将字符串,基于空格来打散。
还有很多其他的分词器,比如Letter tokenizer(字母分词器),字母分词器遇到非字母类型的符号,然后打散字符串。
例如:

Input => “quick 2 brown’s fox “
Output =>
  • 1
声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/weixin_40725706/article/detail/828544?site
推荐阅读
相关标签
  

闽ICP备14008679号