【ES】--Elasticsearch的分词器深度研究

作者：小丑西瓜9 | 2024-02-21 21:00:15

踩

一、问题描述及分析

面对现实很多复杂情况，默认的ES搜索引擎方式已经不能支持。下面将针对常见的问题进行分析，如何使用ES的分词器达到预定效果。
常见有ik、pinyin、tsconvert三种分词器，
elasticsearch-analysis-ik
elasticsearch-analysis-pinyin
elasticsearch-analysis-stconvert
现有问题场景要求
(1)、对检索结果，要能同时搜索到简繁体、能搜索到拼音等
(2)、搜索的结果不要太零散(不要把关键词分成一个一个的字)
(3)、不希望搜索的关键词匹配到语气助词
(4)、一些特定的词语（如’中国的炎黄子孙’）不希望被分词，要能够整体匹配
面对上面等问题，分析如下：
(1)、对检索结果，要能同时搜索到简繁体、能搜索到拼音等
—对要搜索的字段进行multi-fields属性设置，使该字段能满足多场景的搜索
(2)、搜索的结果不要太零散(不要把关键词分成一个一个的字)
—ES默认的standard分词器会把汉字分为一个个汉字。ik分词器主要有ik_smart【最少切分，最粗精度】、ik_max_word【最多切分，最细精度】两种模式。
(3)、不希望搜索的关键词匹配到语气助词
—使用“停用词”来过滤掉语气助词。排除停用词可以加快建立索引的速度，减小索引库文件的大小，并且还可以提高查询的准确度。【参考https://blog.csdn.net/qq_29864051/article/details/124831207】
(4)、一些特定的词语（如’中国的炎黄子孙’）不希望被分词，要能够整体匹配
—可以通过对ik分词器添加自定义词典。另外，为了切换实际场景，可以采用“热更新自定义词典”方案。

二、analyze分析器原理

在这里插入图片描述
Char Filter:字符过滤器的工作是执行清除任务，例如剥离 HTML 标记，还有上面的把 “&” 转换为 “and” 字符串。
Tokenizer:将文本基于任何规则拆分为称为标记的术语。一般此时如ik分词器的模式起作用。
Token filter:一旦创建了token，它们就会被传递给 token filter，这些过滤器会对 token 进行规范化。 Token filter 可以更改 token，删除术语或向 token 添加术语。

三、 multi-fields字段支持多场景搜索(如同时简繁体、拼音等)

给某个字段设置多个属性的fields。如下所示

   "file_extension": {
   
          "type": "text",
          "fields": {
   
            "keyword": {
   
              "type": "keyword",
              "ignore_above": 256,
              "normalizer": "lowercase_normalizer"
            },
            "pinyin": {
   
              "type": "text",
              "analyzer": "pinyin_analyzer"
            },
            "pure": {
   
              "type": "text",
              "analyzer": "ts_match_all_analyzer"
            },
            "pure1": {
   
              "type": "text",
              "analyzer": 
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/小丑西瓜9/article/detail/126529

【ES】--Elasticsearch的分词器深度研究

目录

一、问题描述及分析

二、analyze分析器原理

三、 multi-fields字段支持多场景搜索(如同时简繁体、拼音等)