赞
踩
elasticsearch是一款非常强大的开源搜索引擎,具备非常多强大功能,可以从海量数据中快速找到需要的内容,比如在在GitHub搜索代码,在电商网站搜索商品,在百度搜索答案,在打车软件搜索附近的车。
elasticsearch结合kibana、Logstash、Beats,也就是elastic stack(ELK)。被广泛应用在日志数据分析、实时监控等领域。elasticsearch是elastic stack的核心,负责存储、搜索、分析数据。
elasticsearch底层是基于lucene来实现的。Lucene是一个Java语言的搜索引擎类库,是Apache公司的顶级项目,由DougCutting于1999年研发。官网地址:https://lucene.apache.org/ 。
Lucene的优势:易扩展,高性能(基于倒排索引)
Lucene的缺点:只限于java语言开发,学习曲线陡峭,不支持水平扩展
elasticsearch:
支持分布式,可水平扩展
提供Restful接口,可被任何语言调用
总结:
什么是elasticsearch?
什么是elastic stack(ELK)?
什么是Lucene?
正向索引
给下表中的id创建索引,如果是根据id查询,会直接走索引,查询速度非常快。
如果是基于title做模糊查询,只能逐行扫描,流程如右侧所示:
1.用户搜索数据,条件是title符合"%手机%"
2.逐行获取数据,比如id为1的数据
3.判断数据中的title是否符合用户搜索条件
4.如果符合则放入结果集,不符合则丢弃。回到步骤1
这样逐行扫描,也就是全表扫描,随着数据量增加,其查询效率也会越来越低。当数据量达到数百万时,就是一场灾难。
倒排索引
倒排索引的概念是基于MySQL这样的正向索引而言的。
Document
):用来搜索的数据,其中的每一条数据就是一个文档。例如一个网页、一个商品信息Term
):对文档数据或用户搜索数据,利用某种算法分词,得到的具备含义的词语就是词条。创建倒排索引是对正向索引的一种特殊处理,流程如下:
倒排索引的搜索流程如下(以搜索"华为手机"为例):
1.用户输入"华为手机" 进行搜索。
2.将用户输入内容进行分词,得到词条:“华为”、“手机”。
3.拿着词条在倒排索引中查找,可以得到包含词条的文档id:1、2、3。
4.拿着文档id到正向索引中查找具体文档。
虽然要先查询倒排索引,再查询倒排索引,但是无论是词条、还是文档id都建立了索引,查询速度非常快!无需全表扫描。
正向索引是最传统的,根据id索引的方式。但根据词条查询时,必须先逐条获取每个文档,然后判断文档中是否包含所需要的词条,是根据文档找词条的过程。
而倒排索引则相反,是先找到用户要搜索的词条,根据词条得到保护词条的文档的id,然后根据id获取文档。是根据词条找文档的过程。
两者方式的优缺点是什么呢?
正向索引:
倒排索引:
elasticsearch是面向文档(Document)存储的,可以是数据库中的一条商品数据,一个订单信息。文档数据会被序列化为json格式后存储在elasticsearch中,Json文档中往往包含很多的字段(Field),类似于数据库中的列。
文档(Document),就是一条条的数据,类似数据库中的行(Row),文档都是JSON格式。、
字段(Field),就是JSON文档中的字段,类似数据库中的列(Column)
索引(Index),就是相同类型的文档的集合,类似数据库的表(table)。
数据库的表会有约束信息,用来定义表的结构、字段的名称、类型等信息。因此,索引库中就有映射(mapping),是索引中文档的字段约束信息,类似表的结构约束。
DSL是elasticsearch提供的JSON风格的请求语句,用来操作elasticsearch,实现CRUD,类似于SQL。
对安全性要求较高的写操作,使用mysql实现。
对查询性能要求较高的搜索需求,使用elasticsearch实现。
两者再基于某种方式,实现数据的同步,保证一致性。
分词器的作用是什么?
IK分词器有几种模式?
IK分词器如何拓展词条?如何停用词条?
<?xml version="1.0" encoding="UTF-8"?>
<!DOCTYPE properties SYSTEM "http://java.sun.com/dtd/properties.dtd">
<properties>
<comment>IK Analyzer 扩展配置</comment>
<!--用户可以在这里配置自己的扩展字典 -->
<entry key="ext_dict">kuang.dic</entry>
<!--用户可以在这里配置自己的扩展停止词字典,配置一些敏感词汇-->
<entry key="ext_stopwords">stopword.dic</entry>
<!--用户可以在这里配置远程扩展字典 -->
<!-- <entry key="remote_ext_dict">words_location</entry> -->
<!--用户可以在这里配置远程扩展停止词字典-->
<!-- <entry key="remote_ext_stopwords">words_location</entry> -->
</properties>
mapping是对索引库中文档的约束,常见的mapping属性包括:
没有数组概念,是同一种数据类型的多个值。
{
"age": 21, #类型为 integer;参与搜索,因此需要index为true;无需分词器
"weight": 52.1, #类型为float;参与搜索,因此需要index为true;无需分词器
"isMarried": false, #类型为boolean;参与搜索,因此需要index为true;无需分词器
"info": "黑马程序员Java讲师", #类型为字符串,需要分词,因此是text;参与搜索,因此需要index为true;分词器可以用ik_smart
"email": "zy@itcast.cn", #类型为字符串,但是不需要分词,因此是keyword;不参与搜索,因此需要index为false;无需分词器
"score": [99.1, 99.5, 98.9], #类型为float;参与搜索,需要index为true;无需分词器
"name": { #类型为object,需要定义多个子属性
"firstName": "云", #类型为字符串,但是不需要分词,因此是keyword;参与搜索,因此需要index为true;无需分词器
"lastName": "赵"
}
}
创建索引库:
PUT /索引库名称 { "mappings": { "properties": { "字段名":{ "type": "text", "analyzer": "ik_smart" }, "字段名2":{ "type": "keyword", "index": "false" }, "字段名3":{ "properties": { "子字段": { "type": "keyword" } } }, // ...略 } } }
示例:
PUT /heima { "mappings": { "properties": { "info":{ "type": "text", "analyzer": "ik_smart" }, "email":{ "type": "keyword", "index": "falsae" }, "name":{ "properties": { "firstName": { "type": "keyword" }, "lastName": { "type": "keyword" } } }, // ... 略 } } }
查询索引库: GET /索引库名
修改索引库:
倒排索引结构虽然不复杂,但是一旦数据结构改变(比如改变了分词器),就需要重新创建倒排索引,这简直是灾难。因此索引库一旦创建,无法修改mapping。
无法修改mapping中已有的字段,允许添加新的字段到mapping中,因为不会对倒排索引产生影响。
语法说明:
PUT /索引库名/_mapping
{
"properties": {
"新字段名":{
"type": "integer"
}
}
}
删除索引库: DELETE /索引库名
索引库操作有哪些?
新增文档:
POST /索引库名/_doc/文档id
{
"字段1": "值1",
"字段2": "值2",
"字段3": {
"子属性1": "值3",
"子属性2": "值4"
},
// ...
}
实例:
POST /heima/_doc/1
{
"info": "黑马程序员Java讲师",
"email": "zy@itcast.cn",
"name": {
"firstName": "云",
"lastName": "赵"
}
}
查询文档: GET /索引库名/_doc/文档id
删除文档: DELETE/索引库名/_doc/文档id
修改文档
其本质是:根据指定的id删除文档,新增一个相同id的文档。
如果根据id删除时,id不存在,第二步的新增也会执行,即修改变成新增操作。
PUT /{索引库名}/_doc/文档id
{
"字段1": "值1",
"字段2": "值2",
// ... 略
}
示例:
PUT /heima/_doc/1
{
"info": "黑马程序员高级Java讲师",
"email": "zy@itcast.cn",
"name": {
"firstName": "云",
"lastName": "赵"
}
}
POST /{索引库名}/_update/文档id
{
"doc": {
"字段名": "新的值",
}
}
示例:
POST /heima/_update/1
{
"doc": {
"email": "ZhaoYun@itcast.cn"
}
}
文档操作有哪些?
Elasticsearch提供了基于JSON的DSL(Domain Specific Language)来定义查询。常见的查询类型包括:
基本语法:
GET /indexName/_search
{
"query": {
"查询类型": {
"查询条件": "条件值"
}
}
}
查询所有,没有查询条件:
GET /indexName/_search
{
"query": {
"match_all": {
}
}
}
因此参与搜索的字段也必须是可分词的text类型的字段。
match查询语法如下:
GET /indexName/_search
{
"query": {
"match": {
"FIELD": "TEXT"
}
}
}
mulit_match语法如下:
GET /indexName/_search
{
"query": {
"multi_match": {
"query": "TEXT",
"fields": ["FIELD1", " FIELD12"]
}
}
}
match查询示例:
multi_match查询示例:
两种查询结果是一样的,因为已将brand、name、business值都利用copy_to复制到了all字段中。因此根据三个字段搜索,和根据all字段搜索效果一样。
但是,搜索字段越多,对查询性能影响越大,因此建议采用copy_to,然后单字段查询的方式。
精确查询一般是查找keyword、数值、日期、boolean等类型字段。所以不会对搜索条件分词。常见的有:
语法说明:
// term查询
GET /indexName/_search
{
"query": {
"term": {
"FIELD": {
"value": "VALUE"
}
}
}
}
搜索的是精确词条时,能正确查询出结果:
当搜索的内容不是词条,而是多个词语形成的短语时,反而搜索不到:
范围查询,一般应用在对数值类型做范围过滤的时候。比如做价格范围过滤。
基本语法:
// range查询
GET /indexName/_search
{
"query": {
"range": {
"FIELD": {
"gte": 10, // 这里的gte代表大于等于,gt则代表大于
"lte": 20 // lte代表小于等于,lt则代表小于
}
}
}
}
示例:
地理坐标查询,其实就是根据经纬度查询,官方文档:https://www.elastic.co/guide/en/elasticsearch/reference/current/geo-queries.html
常见的使用场景包括:
矩形范围查询
geo_bounding_box查询,查询坐标落在某个矩形范围的所有文档:
需要指定矩形的左上、右下两个点的坐标,然后画出一个矩形,落在该矩形内的都是符合条件的点。
语法如下:
// geo_bounding_box查询 GET /indexName/_search { "query": { "geo_bounding_box": { "FIELD": { "top_left": { // 左上点 "lat": 31.1, "lon": 121.5 }, "bottom_right": { // 右下点 "lat": 30.9, "lon": 121.7 } } } } }
附近查询
也叫做距离查询(geo_distance):查询到指定中心点小于某个距离值的所有文档。即在地图上找一个点作为圆心,以指定距离为半径,画一个圆,落在圆内的坐标都算符合条件:
语法说明:
// geo_distance 查询
GET /indexName/_search
{
"query": {
"geo_distance": {
"distance": "15km", // 半径
"FIELD": "31.21,121.5" // 圆心
}
}
}
搜索陆家嘴附近15km的酒店:
半径缩短到3公里,酒店数量减少到了5家
复合(compound)查询:复合查询可以将其它简单查询组合起来,实现更复杂的搜索逻辑。常见的有两种:
相关性算分
利用match查询时,文档结果会根据与搜索词条的关联度打分(_score),返回结果时按照分值降序排列。
搜索 “虹桥如家”,结果如下:
[ { "_score" : 17.850193, "_source" : { "name" : "虹桥如家酒店真不错", } }, { "_score" : 12.259849, "_source" : { "name" : "外滩如家酒店真不错", } }, { "_score" : 11.91091, "_source" : { "name" : "迪士尼如家酒店真不错", } } ]
在elasticsearch中,早期使用的打分算法是TF-IDF算法,公式如下:
在后来的5.1版本升级中,elasticsearch将算法改进为BM25算法,公式如下:
TF-IDF算法的缺陷,就是词条频率越高,文档得分也会越高,单个词条对文档影响较大。而BM25则会让单个词条的算分有一个上限,曲线更加平滑:
elasticsearch的相关性打分算法是什么?(根据词条和文档的相关度做打分)
根据相关度打分是比较合理的需求,但合理的不一定是产品经理需要的。
以百度为例,你搜索的结果中,并不是相关度越高排名越靠前,而是谁掏的钱多排名就越靠前。如图:
利用function_score_query,可以修改文档的相关性算分,根据新得到的算分排序
function score的运行流程如下:
因此,其中的关键点是:
举例:给“如家”品牌的酒店排名靠前一些
因此最终的DSL语句如下:
GET /hotel/_search { "query": { "function_score": { "query": { .... }, // 原始查询,可以是任意条件 "functions": [ // 算分函数 { "filter": { // 满足的条件,品牌必须是如家 "term": { "brand": "如家" } }, "weight": 2 // 算分权重为2 } ], "boost_mode": "sum" // 加权模式,求和 } } }
测试,在未添加算分函数时,如家得分如下:
添加了算分函数后,如家得分就提升了:
布尔查询是一个或多个查询子句的组合,每一个子句就是一个子查询。子查询的组合方式有:
比如在搜索酒店时,除了关键字搜索外,我们还可能根据品牌、价格、城市等字段做过滤:
因为每一个不同的字段,其查询的条件、方式都不一样,必须是多个不同的查询,所以用bool查询组合这些查询。
注意:搜索时,参与打分的字段越多,查询的性能也越差。因此这种多条件查询时,建议这样做:
语法示例:
GET /hotel/_search { "query": { "bool": { "must": [ {"term": {"city": "上海" }} ], "should": [ {"term": {"brand": "皇冠假日" }}, {"term": {"brand": "华美达" }} ], "must_not": [ { "range": { "price": { "lte": 500 } }} ], "filter": [ { "range": {"score": { "gte": 45 } }} ] } } }
需求:搜索名字包含“如家”,价格不高于400,在坐标31.21,121.5周围10km范围内的酒店。
分析:
elasticsearch默认是根据相关度算分(_score)来排序,但是也支持自定义方式对搜索结果排序。可以排序字段类型有:keyword类型、数值类型、地理坐标类型、日期类型等。
keyword、数值、日期类型排序的语法基本一致:
排序条件是一个数组,也就是可以写多个排序条件。按照声明的顺序,当第一个条件相等时,再按照第二个条件排序,以此类推。
GET /indexName/_search
{
"query": {
"match_all": {}
},
"sort": [
{
"FIELD": "desc" // 排序字段、排序方式ASC、DESC
}
]
}
需求描述:酒店数据按照用户评价(score)降序排序,评价相同的按照价格(price)升序排序
地理坐标:
GET /indexName/_search
{
"query": {
"match_all": {}
},
"sort": [
{
"_geo_distance" : {
"FIELD" : "纬度,经度", // 文档中geo_point类型的字段名、目标坐标点
"order" : "asc", // 排序方式
"unit" : "km" // 排序的距离单位
}
}
]
}
需求描述:实现对酒店数据按照到你的位置坐标的距离升序排序
提示:获取你的位置的经纬度的方式:https://lbs.amap.com/demo/jsapi-v2/example/map/click-to-get-lnglat/
假设我的位置是:31.034661,121.612282,寻找我周围距离最近的酒店。
elasticsearch 默认情况下只返回top10的数据。而如果要查询更多数据就需要修改分页参数了。elasticsearch中通过修改from、size参数来控制要返回的分页结果:
GET /hotel/_search
{
"query": {
"match_all": {}
},
"from": 0, // 分页开始的位置,默认为0
"size": 10, // 期望获取的文档总数
"sort": [
{"price": "asc"}
]
}
查询990~1000的数据,查询逻辑如下:
GET /hotel/_search
{
"query": {
"match_all": {}
},
"from": 990, // 分页开始的位置,默认为0
"size": 10, // 期望获取的文档总数
"sort": [
{"price": "asc"}
]
}
查询990开始的数据,即第990-第1000条数据。但是elasticsearch内部分页时,必须先查询 0~1000条,然后截取其中的990 ~ 1000的这10条:
查询TOP1000,如果es是单点模式,这并无太大影响。但是elasticsearch将来一定是集群,例如我集群有5个节点,我要查询TOP1000的数据,并不是每个节点查询200条就可以了。因为节点A的TOP200,在另一个节点可能排到10000名以外了。因此要想获取整个集群的TOP1000,必须先查询出每个节点的TOP1000,汇总结果后,重新排名,重新截取TOP1000。
当查询分页深度较大时,汇总数据过多,对内存和CPU会产生非常大的压力,因此elasticsearch会禁止from+ size 超过10000的请求。针对深度分页,ES提供了两种解决方案,官方文档:
分页查询的常见实现方案以及优缺点:
在搜索结果中把搜索关键字突出显示。
高亮显示的实现分为两步:
<em>
标签<em>
标签编写CSS样式高亮的语法:
GET /hotel/_search { "query": { "match": { "FIELD": "TEXT" // 查询条件,高亮一定要使用全文检索查询 } }, "highlight": { "fields": { // 指定要高亮的字段 "FIELD": { "pre_tags": "<em>", // 用来标记高亮字段的前置标签 "post_tags": "</em>" // 用来标记高亮字段的后置标签 } } } }
注意:
查询的DSL是一个大的JSON对象,包含下列属性:
示例:
RestClient操作es:https://blog.csdn.net/weixin_43994244/article/details/128857337
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。