赞
踩
Elasticsearch使用一种称为倒排索引的结构,它适用于全文搜索,一个倒排索引由文档中所有不重复 的列表构成,对于其中每一个词,有一个包含它的文档列表。
示例:
(1):假设文档集合包含五个文档。每个文档内容如图所示,在图中最左端一栏是每个文档对应的文档编号。我们的任务就是对这个文档集合建立倒排索引。
(2):中文和英文等语言不同,单词之间没有明确分隔符号,所以首先要用分词系统将文档自动切分成单词序列,这样每个文档就转换为由单词序列构成的数据流,为了系统后续处理方便,需要对每个不同的单词赋予唯一的单词编号,同时记录下哪些文档包含这个单词,在如此处理结束后,我们可以得到最简单的倒排索引,“单词ID”一栏记录了每个单词的单词编号,第二栏是对应的单词,第三栏即每个单词对应的倒排列表。
(3):索引系统还可以记录除此之外的更多信息,下图还记载了单词频率信息(TF)即这个单词在某个文档中的出现次数,之所以要记录这个信息,是因为词频信息在搜索结果排序时,计算查询和文档相似度是很重要的一个计算因子,所以将其记录在倒排列表中,以方便后续排序时进行分值计算。
(4):倒排列表中还可以记录单词在某个文档出现的位置信息
(1,<11>,1),(2,<7>,1),(3,<3,9>,2)
有了这个索引系统,搜索引擎可以很方便地相应用户的查询,比如用户输入查询词“Facebook”,搜索系统查找倒排索引,从中可以读出包含这个单词的文档,这些文档就是提供给用户的搜索结构,而利用单词频率信息、文档频率细心即可以对这些候选搜索结果进行排序,计算文档和查询的相似性,按照相似性得分由高到低排序输出,此即为搜索系统部分内部流程。
两个表:
计算相关度分数时,文档1的匹配度高,分数会比文档2高
问题:
Quick 和 quick 以独立的词条出现,然而用户可能认为它们是相同的词。
fox 和 foxes 非常相似,就像 dog 和 dogs;它们有相同的词根。
jumped 和 leap , 尽管没有相同的词根,但它们的司仪很相近。它们是同义词。
搜索含有 Quick fox 的文档是搜索不到的
使用标准化规则(normalization)
建立倒排索引的时候,会对拆分出的各个单词进行相应的处理,以提升后面搜索的时候能够搜索到相关的文档的概率;
分词器:从一串文本中切分出一个一个的词条,并对每个词条进行标准化
包括三部分:
character filter:分词之前的预处理,过滤掉HTML标签,特殊符号转换等
tokenizer:分词
token filter:标准化
内置分词器:
standard分词器:(默认的)他会将词汇单元转换成小写形式,并去除停用词和标点符号,支持中文采用的方法为单字切分;
simple 分词器:首先会通过非字母字符来分隔文本信息,然后将词汇单元统一为小写形式。该分析器会去掉数字类型的字符;
Whitespace分词器:仅仅是去除空格,对字符没有lowcase化,不支持中文;并且不对生成的词汇单元进行其他的标准化处理;
language分词器:特定语言的分词器,不支持中文。
(1)下载中文分词器:
https://github.com/medcl/elasticsearch-analysis-ik
(2)解压elasticsearch-analysis-ik-master.zip
[hadoop@hadoop01 apps]$ unzip elasticsearch-analysis-ik-master.zip
(3)进入elasticsearch-analysis-ik-master,编译源码(需要用到maven,自行百度下载)
mvn clean install -Dmaven.test.skip=true
编译成功!
后来报错版本不匹配,后查看elasticsearch安装的是6.2.4,elasticsearch-analysis-ik-6.3.0.zip安装的是6.3.0。
https://github.com/medcl/elasticsearch-analysis-ik/releases
下载6.2.4zip包放入
/home/hadoop/apps/elasticsearch-analysis-ik-master/target/releases路径下:
在这个路径下/home/hadoop/apps/elasticsearch-6.2.4/plugins 新建一个文件夹ik
[hadoop@hadoop01 plugins]$ mkdir ik
把zip包挪过来:
[hadoop@hadoop01 releases]$ cp elasticsearch-analysis-ik-6.2.4.zip /home/hadoop/apps/elasticsearch-6.2.4/plugins/ik
解压缩:
[hadoop@hadoop01 ik]$ unzip elasticsearch-analysis-ik-6.2.4.zip
把elasticsearch里面的文件全部挪到ik目录下:(把空文件夹删掉即可)
[hadoop@hadoop01 elasticsearch]$ mv * /home/hadoop/apps/elasticsearch-6.2.4/plugins/ik
启动:
[hadoop@hadoop01 ik]$ elasticsearch
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。