Elasticsearch中什么是 tokenizer、analyzer、filter ?_elasticsearch中tokenizer、filter和analyzer

作者：weixin_40725706 | 2024-07-15 08:52:15

踩

elasticsearch中tokenizer、filter和analyzer

Elastic search 是一个能快速帮忙建立起搜索功能的，最好之一的引擎。

搜索引擎的构建模块大都包含 tokenizers（分词器）, token-filter（分词过滤器）以及 analyzers（分析器）。

这就是搜索引擎对数据处理和存储的方式，所以，通过上面的3个模块，数据就可以被轻松快速的查找。

下面讨论下， tokenizers（分词器）, token-filter（分词过滤器）以及 analyzers（分析器）是如何工作的?

分词，就是将一个字符串，按照特定的规则打散为多个小的字符串的过程，按照专业术语说法就是就是打散为token（符号）。

举个例子：

Whitespace tokenizer （空格分词器）
空格分词器将字符串，基于空格来打散。
还有很多其他的分词器，比如Letter tokenizer（字母分词器），字母分词器遇到非字母类型的符号，然后打散字符串。
例如：

Input => “quick 2 brown’s fox “
Output =>1

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/weixin_40725706/article/detail/828544?site