当前位置:   article > 正文

ElasticSearch-ik分词器

elasticsearch-ik

1. 下载ik分词器

  • 一定要和ElasticSearch的版本一致,否则会闪退

GitHub下载地址

在这里插入图片描述

2. 解压压缩包到elasticsearch\plugins\ik下(ik是自己建的)

在这里插入图片描述

3. 启动ElasticSearch,查看命令窗口打印信息,观察是否加载ik插件

  • 如果不放心,可以在ElasticSearch的lib目录下打开命令窗口,执行elasticsearch-plugin list查看是否有自己建立的ik目录

在这里插入图片描述

4. 启动Kibana,测试ik分词器

ik_smart 最少切分
GET _analyze
{
  "analyzer": "ik_smart",
  "text": "我喜欢玩剧本杀"
}
  • 1
  • 2
  • 3
  • 4
  • 5

在这里插入图片描述

{
  "tokens" : [
    {
      "token" : "我",
      "start_offset" : 0,
      "end_offset" : 1,
      "type" : "CN_CHAR",
      "position" : 0
    },
    {
      "token" : "喜欢",
      "start_offset" : 1,
      "end_offset" : 3,
      "type" : "CN_WORD",
      "position" : 1
    },
    {
      "token" : "玩",
      "start_offset" : 3,
      "end_offset" : 4,
      "type" : "CN_CHAR",
      "position" : 2
    },
    {
      "token" : "剧本",
      "start_offset" : 4,
      "end_offset" : 6,
      "type" : "CN_WORD",
      "position" : 3
    },
    {
      "token" : "杀",
      "start_offset" : 6,
      "end_offset" : 7,
      "type" : "CN_CHAR",
      "position" : 4
    }
  ]
}


  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
  • 14
  • 15
  • 16
  • 17
  • 18
  • 19
  • 20
  • 21
  • 22
  • 23
  • 24
  • 25
  • 26
  • 27
  • 28
  • 29
  • 30
  • 31
  • 32
  • 33
  • 34
  • 35
  • 36
  • 37
  • 38
  • 39
  • 40
  • 41
ik_max_word 最细腻度划分
GET _analyze
{
  "analyzer": "ik_max_word",
  "text": "我喜欢玩剧本杀"
}
  • 1
  • 2
  • 3
  • 4
  • 5

在这里插入图片描述

{
  "tokens" : [
    {
      "token" : "我",
      "start_offset" : 0,
      "end_offset" : 1,
      "type" : "CN_CHAR",
      "position" : 0
    },
    {
      "token" : "喜欢",
      "start_offset" : 1,
      "end_offset" : 3,
      "type" : "CN_WORD",
      "position" : 1
    },
    {
      "token" : "玩",
      "start_offset" : 3,
      "end_offset" : 4,
      "type" : "CN_CHAR",
      "position" : 2
    },
    {
      "token" : "剧本",
      "start_offset" : 4,
      "end_offset" : 6,
      "type" : "CN_WORD",
      "position" : 3
    },
    {
      "token" : "杀",
      "start_offset" : 6,
      "end_offset" : 7,
      "type" : "CN_CHAR",
      "position" : 4
    }
  ]
}


  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
  • 14
  • 15
  • 16
  • 17
  • 18
  • 19
  • 20
  • 21
  • 22
  • 23
  • 24
  • 25
  • 26
  • 27
  • 28
  • 29
  • 30
  • 31
  • 32
  • 33
  • 34
  • 35
  • 36
  • 37
  • 38
  • 39
  • 40
  • 41

5. 当发现ik自带的分词规则不满足自己的需求,可以自定义分词规则

  • 比如:“剧本杀” 这是一个词,但是却被ik分词器分开了,可以把 “剧本杀” 加入到分词器的字典中

在这里插入图片描述
在这里插入图片描述

观察配置文件和目录结构,自定义dic字典,注入配置文件

在这里插入图片描述

  • 一定要记得把格式设置为 utf-8 ,否则自定义词组可能不会生效

在这里插入图片描述

在这里插入图片描述

  • 重启ElasticSearch和Kibana

在这里插入图片描述

在这里插入图片描述

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/从前慢现在也慢/article/detail/966726
推荐阅读
相关标签
  

闽ICP备14008679号