当前位置:   article > 正文

Elasticsearch 介绍及java集成_java es

java es

一、Elasticsearch 基础介绍

ElasticSearch 是分布式实时搜索、实时分析、实时存储引擎,简称(ES), 成立于2012年,是一家来自荷兰的、开源的大数据搜索、分析服务提供商,为企业提供实时搜索、数据分析服务,支持PB级的大数据。

基于Apache Lucene 开源搜索引擎,Lucene是目前公认的性能最好,最先进的,功能最全的搜索引擎。

Elasticsearch使用Java开发并使用Lucene作为其核心来实现所有索引和搜索的功能,通过简单RESTfulAPI来隐藏Lucene的复杂性,从而让全文搜索变得简单。 速度超出你的想像,从10亿的数据中查出一条只需要1-2秒

除了Lucene 和全文搜索,还有以下功能

        分布式的实时文件存储,每个字段都被索引并可被搜索

         分布式的实时分析搜索引擎

        可以扩展到上百台服务器,处理PB级结构化或非结构化数据

而且,所有的这些功能被集成到一个服务里面,你的应用可以通过简单的RESTful API、各种语言的客户端甚至命令行与之交互。

为什么要用ElasticSearch?

全文检索开始使用SQL来写,使用like进行模糊查询。如果数据量比较大,用这种方法就会特别慢,可以使用索引使得速度相对提高,但还是达不到对大数据搜索的要求,所以要使用分布式的全文搜索引擎ElasticSearch。

1)、ES原理剖析

索引和搜索流程图

绿色代表索引过程,对要检索的内容进行索引构建一个索引库,

索引过程包括:确定的原始内容即要搜索的内容——>采集文档——>创建文档——>分析文档——>索引文档

红色代表搜索过程:从索引库中搜索内容,

搜索过程:用户通过搜索界面——>创建查询——>执行搜索,从索引库搜索——>渲染搜索结果

二、Elasticsearch基本概念:

 索引(Index)

一个索引就是一个拥有几分相似特征的文档的集合。比如说,你可以有一个客户数据的索引,另一个产品目录的索引,还有一个订单数据的索引。一个索引由一个名字来标识(必须全部是小写字母的),并且当我们要对对应于这个索引中的文档进行索引、搜索、更新和删除的时候,都要使用到这个名字。

类型(Type)6.0.0版本中弃用

类型,曾经是索引的逻辑类别/分区,允许您在同一索引中存储不同类型的文档,例如,一种类型用于用户,另一种类型用于博客帖子。

在一个索引中,你可以定义一种或多种类型。一个类型是你的索引的一个逻辑上的分类/分区,其语义完全由你来定。

文档(Document)

一个文档是一个可被索引的基础信息单元。比如,你可以拥有某一个客户的文档,某一个产品的一个文档,当然,也可以拥有某个订单的一个文档。文档以JSON(Javascript Object Notation)格式来表示。文档必须被索引/赋予一个索引的type。

分片(Shards)

索引可能存储大量可能超过单个节点的硬件限制的数据。

如果我们的索引数据量很大,超过硬件存放单个文件的限制,就会影响查询请求的速度,Es引入了分片技术。一个分片本身就是一个完成的搜索引擎,文档存储在分片中,而分片会被分配到集群中的各个节点中,随着集群的扩大和缩小,ES会自动的将分片在节点之间进行迁移,以保证集群能保持一种平衡。分片有以下特点:

  1. ES的一个索引可以包含多个分片(shard);
  2. 每一个分片(shard)都是一个最小的工作单元,承载部分数据;
  3. 每个shard都是一个lucene实例,有完整的简历索引和处理请求的能力;
  4. 增减节点时,shard会自动在nodes中负载均衡;
  5. 一个文档只能完整的存放在一个shard上
  6. 一个索引中含有shard的数量,默认值为5,在索引创建后这个值是不能被更改的。
  7. 优点:水平分割和扩展我们存放的内容索引;分发和并行跨碎片操作提高性能/吞吐量;
  8. 每一个shard关联的副本分片(replica shard)的数量,默认值为1,这个设置在任何时候都可以修改。

副本(Replicasedit)

副本,是对分片的复制。目的是为了当分片/节点发生故障时提供高可用性,它允许您扩展搜索量/吞吐量,因为可以在所有副本上并行执行搜索。

一个分片可以有多个复制分片,也可以无复制分片。它的作用主要是防止分片故障,加速查询索引等功能,提供了高可用性。另外,复制分片是不和主分片在一起的,一个主分片在一台机器上,它的复制分片可能分布在其它N台机器上。在这里,我们可以把它理解为,一个分片的复制,就叫复制分片。每个分片会包含部分索引文件。文件由sgment组成 。

副本(replica shard)就是shard的冗余备份,它的主要作用:

1)、冗余备份,防止数据丢失;

2)、shard异常时负责容错和负载均衡;

 

注意:副本是乘法,越多越浪费,但也越保险。分片是除法,分片越多,单分片数据就越少也越分散。

集群

多台ES服务器的结合的统称叫ES集群,一个集群包含多台服务器,多个节点。

节点

一个节点是你集群中的一个服务器,作为集群的一部分,它存储你的数据,参与集群的索引和搜索功能。

节点种类

主节点:负责集群范围内轻量级的操作,例如创建或删除索引。跟踪那些节点是集群的一部分以及确定将哪些碎片分配给哪些节点

数据节点:包含已创建的索引文档的分片。数据节点处理及数据相关的操作。例如CRUD,搜索和聚合

调节节点:仅可路由请求,处理搜索缩减阶段并分配批量索引。本质上,仅协调节点充当智能负载平衡器

节点和分片如何工作?

一个集群至少有一个节点,而一个节点就是一个ElasticSearch进程,节点可以有多个默认索引,如果创建索引,索引将会由5个分片(primary shard,又称主分片)构成,每一个分片会有一个复制分片

三、与传统的关系型数据库中的库、表、行、列等概念进行对比

关系型数据库 -> Databases(库) -> Tables(表) -> Rows(行) -> Columns(列)。

Elasticsearch -> Indeces(索引) -> Types(类型) -> Documents(文档) -> Fields(属性)。

RDBS

ES

数据库(database)

索引(index)

表(table)

类型(type)(ES6.0之后被废弃,es7中完全删除)

表结构(schema)

映射(mapping)

行(row)

文档(document)

列(column)

字段(field)

索引(Schema)

反向索引(Mapping)

SQL

查询DSL

SELECT * FROM table

GET http://.....

UPDATE table SET

PUT  http://......

DELETE

DELETE  http://......

(1)、关系型数据库中的数据库(database),等价与ES索引(index)

(2)、一个数据库下面有N张表(table),等价与1个索引Index下面有N多类型(Type)

                备注:(ES6.0之后被废弃,es7中完全删除)

(3)、一个数据库表(table)下的数据有多行(row)多列(colum)组成,等价与一个Type由多文档(document)多字段(field)组成

(4)、在一个关系型数据库中,索引(Schema)定义了表,每个表的字段,还有表和字段的之间关系,与之对应,在ES中:反向索引(Mapping)定义索引下的Ttype的字段的处理规则,即如何建立、索引类型、是否保存原始索引JSON文档、是否压缩原始JSON文档、是否需要分词处理、如何进行分词处理等

(5)、在数据库中新增 INSERT、删除 DELTE、修改 UPDATE、查询 SEARCH操作等价于ES中的新增PUT/POST、删除DELETE、修改_update、查询GET

        ES内置的RREST接口

搜索原理

(1)、客户端给DODE1发送请求,查询名字叫张三的数据

(2)、P1节点接收到请求,判断出当前数据的_ID对应的分片0,且分片P1中的数据对应复制分片R0,R1都有,就会将请求转发到R0进行处理

(3)、取出文档数据返回给P1,最终返回给前端

更新原理

(1)、客户端给NODE1发送更新请求

(2)、它转发请求到主分片所在的节点NODE3

(3)、NODE3从主分片检索出文档,修改_soure字段的JSON,然后在主分片上重建索引,如果有其他进程修改了文档,它以retry_on_conflict设置的次数重复步骤3,都未成功则放弃

(4)、如何NODE3更新文档成功,它同时转发文档的新版本到NODE1和NODE2上的复制节点以重建索引。当所有复制节点更新成功,NODE3返回成功给请求节点,然后返回用户端

创建/删除原理

(1)、客户端发送请求创建、删除请求

(2)、根据文档ID,它将转发请求到主分片所在节点NODE3

(3)、NODE3在主分片上执行请求,如果成功将转发请求到NODE1和NODE2的复制分片上,当所有复制分片成功,则NODE3返回成功信息给请求节点。在将信息返回给客户端

字段数据类型:

字符型:text(分词,不能用于排序、过滤查询、聚合查询)、keyWord

数字型:byte、short、integer、float、double

布尔型:boolean

日期型:date

二进制型:binary

对象类型:object

字段属性:

store:是否储存字段原始值(独立于_source字段)

index:是否参与索引

analyzer:指定分词器

boost:字段级别的分数加权

doc_values:是否对不分词建立正排序索引

fleld_data:是否对分词器建立正排序索引

properties:类型映射

ignore_above:超过指定字符的文本将忽略不被索引

include_in_all:是否包含该字段到_all字段中

index_optionss:倒排序索引的可选参数

norms:是否储存长度因子和分数加权(boost)

null_value:初始值

position_increment_gap:指定多字段的多个值之间的位置间隔

search_analyzer:指定搜索时分词器

similarity:指定评分策略

term_vector:指定返回哪些关于词条的统计信息

normalizer:标注化处理器

coerce:强制类型转换器

copy_to:创建自定义的_all属性

dynamic:动态映射策略

enabled:是否处理字段(正排序索引和倒排序索引)

eager_global_ordinals:是否立即加载全局序号

format:指定日期格式

ignore_malformed:忽略格式错误的字段

四、ES的特性:

速度快、易扩展、弹性、灵活、操作简单、多语言客户端、X-Pack、hadoop/spark强强联手、开箱即用。

  • 分布式:横向扩展非常灵活
  • 全文检索:基于lucene的强大的全文检索能力;
  • 近实时搜索和分析:数据进入ES,可达到近实时搜索,还可进行聚合分析
  • 高可用:容错机制,自动发现新的或失败的节点,重组和重新平衡数据
  • 模式自由:ES的动态mapping机制可以自动检测数据的结构和类型,创建索引并使数据可搜索。
  • RESTful API:JSON + HTTP

五、索引的应用

创建索引

  1. PUT project_v1
  2. {
  3. "settings": {
  4. "number_of_shards": 1,
  5. "number_of_replicas": 1
  6. },
  7. "mappings": {
  8. "properties": {
  9. "name_cn": {
  10. "type": "text"
  11. },
  12. "name_en": {
  13. "type": "keyword"
  14. },
  15. "project_type": {
  16. "type": "keyword"
  17. },
  18. "people_count": {
  19. "type": "integer"
  20. },
  21. "order_count": {
  22. "type": "long"
  23. },
  24. "date": {
  25. "type": "date",
  26. "format": "yyyy-MM-dd HH:mm:ss||yyyy-MM-dd||yyyy-MM||epoch_millis"
  27. }
  28. }
  29. }
  30. }

备注:text 用于索引全文值的字段,例如电子邮件正文或产品说明。它们通过分词器传递 ,以在被索引之前将字符串转换为单个术语的列表。分析过程允许Elasticsearch搜索单个单词中 每个完整的文本字段。文本字段不用于排序,很少用于聚合。

keyword 用于索引结构化内容的字段,例如电子邮件地址,主机名,状态代码,邮政编码或标签。它们通常用于过滤,排序,和聚合。keyword字段只能按其确切值进行搜索。

有时候一个字段同时拥有全文类型(text)和关键字类型(keyword)是有用的:一个用于全文搜索,另一个用于聚合和排序。

number_of_shards 是指索引要做多少个分片,只能在创建索引时指定,后期无法修改。

number_of_replicas 是指每个分片有多少个副本,后期可以动态修改

primary shard(主分片):每个文档都存储在一个分片中,当你存储一个文档的时候,系统会首先存储在主分片中,然后会复制到不同的副本中。默认情况下,一个索引有5个主分片。你可以在事先制定分片的数量,当分片一旦建立,分片的数量则不能修改。

replica shard(副本分片):每一个分片有零个或多个副本。副本主要是主分片的复制,可以 增加高可用性,提高性能。

默认情况下,一个主分配有一个副本,但副本的数量可以在后面动态的配置增加。

副本必须部署在不同的节点上,不能部署在和主分片相同的节点上。

新增索引数据

  1. PUT /project_v1/_doc/1
  2. {
  3. "name_en":"encourage",
  4. "name_cn":"营销码",
  5. "project_type":"营销",
  6. "people_count":4,
  7. "order_count":1000000,
  8. "date":"2019-04-01"
  9. }

查询索引数据

  1. GET /project_v1/_search
  2. {
  3. "query": {
  4. "match_all": {}
  5. }
  6. }

匹配查询 match

  1. GET /project_v1/_search
  2. {
  3. "query": {
  4. "match": {
  5. "name_cn": "营销"
  6. }
  7. }
  8. }

过滤查询 Filter

  1. GET /project_v1/_search
  2. {
  3. "query": {
  4. "bool": {
  5. "filter": {
  6. "range": {
  7. "date": {
  8. "gte": "2020-04-01"
  9. }
  10. }
  11. }
  12. }
  13. }
  14. }

六、Elasticsearch 聚合查询

1.聚合的概念

官方对聚合有四个关键字:Metric(指标)、Bucketing(桶)、Pipeline(管道)、Matrix(矩阵),在查询请求体中以aggregations语法来定义聚合分析,也可简写成aggs

Metric(指标):指标分析类型,如计算最大值、最小值、平均值等(对桶内的文档进行聚合分析的操作)

Bucket(桶):分桶类型,类似sql中的group by语法(满足特定条件的文档的集合)

Pipeline(管道):管道分析类型,基于上一级的聚合分析结果进行再分析

Matrix(矩阵):矩阵分析类型(聚合是一种面向数值型的聚合,用于计算一组文档字段中的统计信息)

2.Metric(指标)聚合

Metric聚合分析分为单值分析和多值分析两类

1、单值分析,只输出一个分析结果

关键字有min, max,avg,sum,cardinality

2、多值分析,输出多个分析结果

关键字有stats,extended_stats,percentile_rank,top hits

1)、min, max,avg, sum
  1. GET /project_v1/_search
  2. {
  3. "size": 0,
  4. "aggs": {
  5. "min_people_count": {
  6. "min": {
  7. "field": "people_count"
  8. }
  9. },
  10. "max_order_count":{
  11. "max": {
  12. "field": "order_count"
  13. }
  14. },
  15. "avg_order_count":{
  16. "avg": {
  17. "field": "order_count"
  18. }
  19. },
  20. "sum_order_count":{
  21. "sum": {
  22. "field": "order_count"
  23. }
  24. }
  25. }
  26. }
2)、cardinality

cardinality 关键字: 求唯一值,即不重复的字段有多少(相当于sql中的distinct)

  1. GET /project_v1/_search
  2. {
  3. "size": 0,
  4. "aggs": {
  5. "cardinality_project_type": {
  6. "cardinality": {
  7. "field": "project_type"
  8. }
  9. }
  10. }
  11. }
3)、stats

统计信息,请求后会直接显示各种聚合结果(count,min,max,avg,sum)

  1. GET /project_v1/_search
  2. {
  3. "size": 0,
  4. "aggs": {
  5. "stats_order_count": {
  6. "stats": {
  7. "field": "order_count"
  8. }
  9. }
  10. }
  11. }
4)、extended_stats

扩展的统计信息,比stats返回更多的统计信息

  1. GET /project_v1/_search
  2. {
  3. "size": 0,
  4. "aggs": {
  5. "extended_stats_order_count": {
  6. "extended_stats": {
  7. "field": "order_count"
  8. }
  9. }
  10. }
  11. }

3.Bucket(桶)聚合

Bucket可以理解为一个桶,它会遍历文档中的内容,凡是符合某一要求的就放在一个桶中,分桶相当于sql中的group by

关键字有Terms Aggregation,Filter Aggregation,Histogram Aggregation,Date Aggregation

1)、Terms Aggregation

根据某一项的每个唯一的值来聚合

  1. GET /project_v1/_search
  2. {
  3. "size": 0,
  4. "aggs": {
  5. "terms_project_type": {
  6. "terms": {
  7. "field": "project_type",
  8. "size": 3
  9. }
  10. }
  11. }
  12. }
2)、Filter Aggregation

指具体的域和具体的值,可以在Terms Aggregation 的基础上进行了过滤,只对特定的值进行了聚合

  1. #查营销类型的总订单数
  2. GET /project_v1/_search
  3. {
  4. "size": 0,
  5. "aggs": {
  6. "filter_project_type": {
  7. "filter": {
  8. "term": {
  9. "project_type": "营销"
  10. }
  11. },
  12. "aggs": {
  13. "sum_order_count": {
  14. "sum": {
  15. "field": "order_count"
  16. }
  17. }
  18. }
  19. }
  20. }
  21. }
3)、Histogram Aggregation

Histogram与Terms聚合类似,都是数据分组,区别是Terms是按照Field的值分组,而Histogram可以按照指定的间隔对Field进行分组

  1. #项目规模
  2. GET /project_v1/_search
  3. {
  4. "size": 0,
  5. "aggs": {
  6. "project_scale": {
  7. "histogram": {
  8. "field": "people_count",
  9. "interval": 1
  10. }
  11. }
  12. }
  13. }
4)、Date Aggregation

针对时间格式数据的直方图聚合,基本特性与Histogram Aggregation一致

  1. #项目发展史
  2. GET /project_v1/_search
  3. {
  4. "size": 0,
  5. "aggs": {
  6. "date_by_day": {
  7. "date_histogram": {
  8. "field": "date",
  9. "calendar_interval": "day",
  10. "min_doc_count": 1
  11. }
  12. }
  13. }
  14. }

4.Pipeline(管道)聚合

管道的概念:支持对聚合分析的结果,再次进行聚合分析

  1. #查项目类型最少人数的项目类型
  2. GET /project_v1/_search
  3. {
  4. "size":0,
  5. "aggs":{
  6. "project_type":{
  7. "terms": {
  8. "field": "project_type",
  9. "size": 3
  10. },
  11. "aggs":{
  12. "sum_people_count":{
  13. "sum": {
  14. "field": "people_count"
  15. }
  16. }
  17. }
  18. },
  19. "min_people_count_by_project_type":{
  20. "min_bucket": {
  21. "buckets_path": "project_type>sum_people_count"
  22. }
  23. }
  24. }
  25. }

5.总结

Metric(指标):分类并对一组文档进行sum、avg等数学运算

Bucketing(桶):桶聚合,常规的分类然后计算每个分类的文档数量

Pipeline(管道):对聚合的结果再次聚合

Matrix(矩阵):可在多个字段上计算,生成矩阵结果

七,通过SQL查询Elasticsearch

1.为什么用SQL查询

Elasticsearch 的官方查询语言是 Query DSL,既然是官方指定的,说明最吻合 ES 的强大功能,为ES做支撑。

其实,SQL 作为一个数据库查询语言,它语法简洁,书写方便而且大部分服务端程序员都清楚了解和熟知它的写法。但是作为一个 ES 新人来说,就算他已经是一位编程界的老江湖,但是如果他不熟悉 ES ,那么他如果要使用公司已经搭好的 ES 服务,他必须要先学习 Query DSL,学习成本也是一项影响技术开发进度的因素而且不稳定性高。但是如果 ES 查询支持 SQL的话,那么也许就算他是工作一两年的同学,他虽然不懂 ES的复杂概念,他也能很好的使用 ES 而且顺利的参加到开发的队伍中,毕竟SQL 都会写

2.Elasticsearch-SQL

Elasticsearch-SQL不属于 Elasticsearch 官方的,它是 NLPChina(中国自然语言处理开源组织)开源的一个 ES 插件,主要功能是通过 SQL 来查询 ES,其实它的底层是通过解释 SQL,将SQL 转换为 DSL 语法,再通过DSL 查询。

查询语法

SELECT fields from indexName/type WHERE conditions

表名 tableName 的地方现在改为了索引名 indexName,如果有索引Type ,则indexName/type

  1. POST _sql?format=txt
  2. {
  3. "query": "select * from project_index limit 10"
  4. }

SQL翻译成DSL语句

  1. POST _sql/translate
  2. {
  3. "query": "select name_en,COUNT(*) from project_index GROUP BY name_en"
  4. }

八、注意点

1.版本问题

es 5到7的版本变动很大,其中包括type的变动

  • 5.x 支持多种type
  • 6.x 只能有一种type
  • 7.x 将去除type 没有类型的概念了

2.ES并不可靠

ES不是可靠的存储系统,不是数据库,它有丢数据的风险。ES不是实时系统,数据写入成功只是trans log成功(类似于mysql的bin log),写入成功后立刻查询查不到是正常的。因为数据此刻可能还在内存里而不是进入存储引擎里。

3.同步问题

在需要添加新数据与新字段的时候,如果elasticSearch进行搜索是可能需要重新修改格式。之前的数据需要重新同步,对数据的管理有很多困难。

九、SpringBoot集成Elasticsearch

1.引入依赖

  1. <properties>
  2. <!--告诉springboot我们处理的ES的版本-->
  3. <elasticsearch.version>7.10.2</elasticsearch.version>
  4. </properties>
  5. <dependencies>
  6. <dependency>
  7. <groupId>org.springframework.boot</groupId>
  8. <artifactId>spring-boot-starter-data-elasticsearch</artifactId>
  9. </dependency>
  10. </dependencies>

2.yml配置es集群

  1. spring:
  2. elasticsearch:
  3. rest:
  4. uris:
  5. - 192.168.53.112:9200
  6. - 192.168.53.113:9200
  7. - 192.168.53.114:9200

3.简单Test

3.1 创建索引以及分片设置

  1. @Test
  2. public void createIndex() throws Exception{
  3. //1 创建索引并设置分片
  4. //1.1 创建一个RestHightLevelClient对象,相当于和服务端建立连接。
  5. RestHighLevelClient client = new RestHighLevelClient(RestClient.builder(
  6. //没有集群的话 此处可new 一个即可。
  7. new HttpHost("192.168.53.112",9200)
  8. new HttpHost("192.168.53.113",9200),
  9. new HttpHost("192.168.53.114",9200),
  10. ));
  11. //1.2 使用client的索引管理的对象,indices()返回索引管理对象。
  12. IndicesClient indicesClient = client.indices();
  13. //两个参数
  14. //1.2.1 创建索引请求对象 参数:创建的索引库的名称
  15. CreateIndexRequest request = new CreateIndexRequest("hello")
  16. .settings(Settings.builder()
  17. .put("number_of_shards", 5)
  18. .put("number_of_replicas", 1)
  19. .build()
  20. );
  21. //1.2.2 请求选项,使用默认值。配置请求头,主要用于认证。
  22. CreateIndexResponse response = indicesClient.create(request, RequestOptions.DEFAULT);
  23. //显示结果
  24. System.out.println(response.toString());
  25. }

3.2 创建索引库并设置mapping信息

  1. @Test
  2. public void createIndexAndMapping() throws Exception{
  3. RestHighLevelClient client = new RestHighLevelClient(RestClient.builder(
  4. //没有集群的话 此处可new 一个即可。
  5. new HttpHost("192.168.53.112",9200)
  6. new HttpHost("192.168.53.113",9200),
  7. new HttpHost("192.168.53.114",9200),
  8. ));
  9. //创建json数据
  10. XContentBuilder mappings = XContentFactory.jsonBuilder()
  11. .startObject()
  12. .startObject("properties")
  13. .startObject("id")
  14. .field("type","long")
  15. .endObject()
  16. .startObject("title")
  17. .field("type","text")
  18. .field("analyzer","ik_smart")
  19. .field("store",true)
  20. .endObject()
  21. .endObject()
  22. .endObject();
  23. //创建索引请求对象 参数:创建的索引库的名称,分片副片数量以及mapping信息
  24. CreateIndexRequest request = new CreateIndexRequest("hello1")
  25. .settings(Settings.builder()
  26. .put("number_of_shards", 5)
  27. .put("number_of_replicas", 1)
  28. .build()
  29. )
  30. .mapping(mappings);
  31. //两个参数
  32. //1 创建索引请求对象 参数:创建的索引库的名称
  33. //2 请求选项,使用默认值。配置请求头,主要用于认证。
  34. CreateIndexResponse response = client.indices().create(request, RequestOptions.DEFAULT);
  35. //显示结果
  36. System.out.println(response.toString());
  37. }
  38. }

3.3删除索引库

  1. @Test
  2. public void deleteIndex() throws Exception{
  3. RestHighLevelClient client = new RestHighLevelClient(RestClient.builder(
  4. //没有集群的话 此处可new 一个即可。
  5. new HttpHost("192.168.53.112",9200)
  6. new HttpHost("192.168.53.113",9200),
  7. new HttpHost("192.168.53.114",9200),
  8. ));
  9. //删除索引库
  10. AcknowledgedResponse response = client.indices().delete(new DeleteIndexRequest("hello"), RequestOptions.DEFAULT);
  11. //显示结果
  12. System.out.println(response.toString());
  13. }

3.4 添加索引库字段信息

  1. @Test
  2. public void putIndex() throws Exception{
  3. RestHighLevelClient client = new RestHighLevelClient(RestClient.builder(
  4. //没有集群的话 此处可new 一个即可。
  5. new HttpHost("192.168.53.112",9200)
  6. new HttpHost("192.168.53.113",9200),
  7. new HttpHost("192.168.53.114",9200),
  8. ));
  9. String mappings = "{\n" +
  10. "\t\t\t\"properties\":{\n" +
  11. "\t\t\t\t\"id\":{\n" +
  12. "\t\t\t\t\t\"type\" : \"long\"\n" +
  13. "\t\t\t\t},\n" +
  14. "\t\t\t\t\"title\" :{\n" +
  15. "\t\t\t\t\t\"type\" : \"text\",\n" +
  16. "\t\t\t\t\t\"analyzer\" : \"ik_smart\",\n" +
  17. "\t\t\t\t\t\"store\" : true\n" +
  18. "\t\t\t\t},\n" +
  19. "\t\t\t\t\" content\" :{\n" +
  20. "\t\t\t\t\t\"type\" : \"text\",\n" +
  21. "\t\t\t\t\t\"analyzer\" : \"ik_smart\",\n" +
  22. "\t\t\t\t\t\"store\" :true\n" +
  23. "\t\t\t\t}\n" +
  24. "\t\t\t}\n" +
  25. "\t\t}";
  26. //将字符串以json形式发送
  27. PutMappingRequest request = new PutMappingRequest("hello1")
  28. .source(mappings, XContentType.JSON);
  29. //修改索引库
  30. AcknowledgedResponse response = client.indices().putMapping(request, RequestOptions.DEFAULT);
  31. //显示结果
  32. System.out.println(response.toString());
  33. }

十、Elasticsearch文档管理

0.抽取ES连接对象的公共方法

  1. //原生客户端类,即ESjava客户端。
  2. private RestHighLevelClient client;
  3. public void init(){
  4. //1.1 创建一个RestHightLevelClient对象,相当于和服务端建立连接。
  5. client = new RestHighLevelClient(RestClient.builder(
  6. //没有集群的话 此处可new 一个即可。
  7. new HttpHost("192.168.53.112",9200)
  8. new HttpHost("192.168.53.113",9200),
  9. new HttpHost("192.168.53.114",9200),
  10. ));
  11. }

1.添加文档

使用RestHightLevelClient对象。

使用client对象的index方法添加文档

创建IndexRequest对象,其中包含了索引库名称、文档id、文档的内容

{“id”:“1”,“title”:“测试文档1”,“content”:“测试文档中的内容”}

  1. public void addDocument() throws Exception{
  2. String document = "{\"id\":1, \"title\":\"这是测试文章\", \"content\":\"xxxxx\"}";
  3. //创建IndexRequest对象,其中包含索引库名称,文档id,文档内容
  4. IndexRequest request = new IndexRequest()
  5. .index("hello1")
  6. .id("1")
  7. .source(document, XContentType.JSON);
  8. IndexResponse response = client.index(request, RequestOptions.DEFAULT);
  9. System.out.println(response.toString());
  10. }

2.更新文档

使用client对象的update方法。

需要UpdateRequest参数:

1.更新的索引

2.更新的文档的id

3.更新的文档内容

  1. public void updateDocument() throws Exception{
  2. String document = "{\"id\":1, \"title\":\"这是测试文章更细的\", \"content\":\"new update\"}";
  3. //创建IndexRequest对象,其中包含索引库名称,文档id,文档内容
  4. UpdateRequest request = new UpdateRequest()
  5. .index("hello1")
  6. .id("1")
  7. .doc(document, XContentType.JSON);
  8. UpdateResponse response = client.update(request, RequestOptions.DEFAULT);
  9. System.out.println(response.toString());
  10. }

3.删除文档

使用client的delete方法

需要DeleteRequest对象,需要两个参数

1.操作的索引

2.文档的id

  1. public void deleteDocument() throws Exception{
  2. //创建IndexRequest对象,其中包含索引库名称,文档id,文档内容
  3. DeleteRequest request = new DeleteRequest("hello1", "1");
  4. DeleteResponse response = client.delete(request, RequestOptions.DEFAULT);
  5. System.out.println(response.toString());
  6. }

4.根据id查询文档

使用client对象的get方法。

需要使用GetRequest对象,两个参数:

1.操作的索引

2.文档的id

  1. public void getDocument() throws Exception{
  2. //创建IndexRequest对象,其中包含索引库名称,文档id,文档内容
  3. GetRequest request = new GetRequest("hello1", "1");
  4. GetResponse response = client.get(request, RequestOptions.DEFAULT);
  5. System.out.println(response.toString());
  6. }

5.批量查询文档

使用client对象的bulk方法。

BulkRequest对象,使用add方法,添加要批量处理的请求。

支持的处理:IndexRequest,DeleteRequest,UpdateRequest

  1. public void bulkDocument() throws Exception{
  2. //json数据
  3. String jsonData = "[" +
  4. "{\"id\":3, \"title\":\"这是测试文章1\", \"content\":\"xxxxx\", \"comment\":\"备注信息\", \"mobile\":\"13344556677\"}\n" +
  5. "{\"id\":4, \"title\":\"这是一篇文章2\", \"content\":\"xxxxx\", \"comment\":\"备注信息\", \"mobile\":\"13344556677\"}\n" +
  6. "{\"id\":5, \"title\":\"这是一篇文章3\", \"content\":\"xxxxx\", \"comment\":\"备注信息\", \"mobile\":\"13344556677\"}]";
  7. //转换成json格式字符串
  8. JSONArray jsonArray = JSONObject.parseArray(jsonData);
  9. //创建IndexRequest对象,其中包含索引库名称,文档id,文档内容
  10. BulkRequest request = new BulkRequest();
  11. jsonArray.stream()
  12. .forEach(json -> {
  13. IndexRequest r = new IndexRequest()
  14. .index("hello1")
  15. .id(((JSONObject) json).getString("id"))
  16. .source(((JSONObject) json).toJSONString(), XContentType.JSON);
  17. request.add(r);
  18. });
  19. BulkResponse response = client.bulk(request, RequestOptions.DEFAULT);
  20. System.out.println(response.toString());
  21. }

十一、ElasticsearchRestTemplate类与ElasticsearchRepository类

SpringData对ES的封装ElasticsearchRestTemplate类,可直接使用,此类在ElasticsearchRestTemplate基础上进行性一定程度的封装,使用起来更方便灵活,拓展性更强。

ElasticsearchRepository可以被继承操作ES,是SpringBoot对ES的高度封装,操作最为方便,但牺牲了灵活性。

索引库实体类

  1. @Data
  2. @Document(indexName = "blog_1", shards = 5, replicas = 1)
  3. public class Blog {
  4. @Field(type = FieldType.Long, store = true)
  5. private Long id;
  6. //type = FieldType.Text 字段类型为text
  7. //analyzer = "ik_max_word" 分词器为"ik_max_word"
  8. //store = true 存储 => 是
  9. @Field(type = FieldType.Text, analyzer = "ik_max_word", store = true)
  10. private String title;
  11. @Field(type = FieldType.Text, analyzer = "ik_max_word", store = true)
  12. private String content;
  13. @Field(type = FieldType.Text, analyzer = "ik_max_word", store = true)
  14. private String comment;
  15. @Field(type = FieldType.Keyword, store = true)
  16. private String mobile;
  17. }

1、使用ElasticsearchRestTemplate类

a)、创建索引库

  1. @Autowired
  2. private ElasticsearchRestTemplate template;
  3. /**
  4. * 创建索引库
  5. */
  6. public void createIndex(){
  7. //创建索引库
  8. template. indexOps(IndexCoordinates.of("mytest")).create();
  9. }

b)、创建索引库并实体类设置mapping

1)创建索引库
template.indexOps(IndexCoordinates.of(“mytest”)).create();
2)设置mapping信息

需要创建一个实体类,其中配置实体类和文档的映射关系,使用注解配置。

可以从Entity中生成mapping信息。

  1. public void putMapping(){
  2. //创建索引库
  3. Document mapping = template.indexOps(IndexCoordinates.of("mytest")).createMapping(Blog.class);
  4. template.indexOps(IndexCoordinates.of("mytest")).putMapping(mapping);
  5. }

c)、删除索引库

  1. //删除索引库
  2. public void deleteIndex(){
  3. template.indexOps(IndexCoordinates.of("hello1")).delete();
  4. }

d)、索引库查询

  1. public void maxQueryTest(){
  2. NativeSearchQuery builder = new NativeSearchQueryBuilder()
  3. //多字段查询 (高亮跟查询条件有关)
  4. .withQuery(QueryBuilders.multiMatchQuery("8", "id","title"))
  5. //增加过滤条件, 可以设置多个
  6. .withFilter(QueryBuilders.boolQuery()
  7. //增加bool查询:should的term关键字查询
  8. .should(QueryBuilders.termQuery("title", "文章"))
  9. .should(QueryBuilders.termQuery("content","xxx"))
  10. )
  11. //增加过滤条件的关键字查询
  12. .withFilter(QueryBuilders.termQuery("mobile", "13344556677"))
  13. //分页设置
  14. .withPageable(PageRequest.of(0,5))
  15. //设置高亮
  16. .withHighlightBuilder(new HighlightBuilder()
  17. //高亮显示的字段
  18. .field("title")
  19. //高亮显示的字段
  20. .field("content")
  21. //高亮显示的前缀
  22. .preTags("<em>")
  23. //高亮显示的后缀
  24. .postTags("</em>")
  25. )
  26. //添加聚合查询
  27. .addAggregation(new TermsAggregationBuilder("mobile_group").field("mobile"))
  28. .build();
  29. //基于Blog.class 类型返回的结果
  30. SearchHits<Blog> searchHits = template.search(builder, Blog.class);
  31. //从searchHits取相关数据
  32. long totalHits = searchHits.getTotalHits(); //取总记录数
  33. List<SearchHit<Blog>> list = searchHits.getSearchHits(); //取每条数据放入集合中
  34. System.out.println("总记录数为:" + totalHits);
  35. list.forEach(blogSearchHit -> {
  36. //取原生文档对象
  37. Blog blog = blogSearchHit.getContent();
  38. System.out.println(blog);
  39. //取高亮对象
  40. Map<String, List<String>> highlightFields = blogSearchHit.getHighlightFields();
  41. System.out.println(highlightFields);
  42. //取高亮对象 放到Blog里去 这样就将Blog和高亮结合输出了
  43. String title = highlightFields.get("title").get(0);
  44. //String content = highlightFields.get("content").get(0);
  45. blog.setTitle(title);
  46. //blog.setContent(content);
  47. System.out.println(blog);
  48. });
  49. //取聚合结果
  50. Aggregations aggregations = searchHits.getAggregations();
  51. System.out.println(aggregations.toString());
  52. }

2、使用ElasticsearchRepository类

a)、创建接口继承ElasticsearchRepository

  1. public interface BlogRepository extends ElasticsearchRepository<Blog, Long> {
  2. /**
  3. * 定义一个方法查询:根据title查询es
  4. *
  5. * 原因: ElasticsearchRepository会分析方法名,参数对应es中的field(这就是灵活之处)
  6. * @param title
  7. * @return java.util.List<com.yt.cubemall.search.model.Blog>
  8. */
  9. List<Blog> findByTitle(String title);
  10. /**
  11. * 定义一个方法查询: 根据title,content查询es
  12. */
  13. List<Blog> findByTitleAndContent(String title, String content);
  14. }

b)、使用BlogRepository接口

  1. public class BlogRepositoryTest {
  2. @Autowired
  3. private BlogRepository blogRepository;
  4. /**
  5. * 添加文档
  6. */
  7. @Test
  8. public void addDocument(){
  9. Blog blog = new Blog();
  10. for (int i = 0; i < 10; i++) {
  11. blog.setId((long)i+1);
  12. blog.setTitle("测试spring集成es"+i+1);
  13. blog.setContent("sjihfapf"+i+1);
  14. blog.setComment("注释内容"+i+1);
  15. blog.setMobile("12345678901");
  16. blogRepository.save(blog);
  17. }
  18. }
  19. /**
  20. * 更新文档
  21. */
  22. @Test
  23. public void updateDocument(){
  24. Optional<Blog> optional = blogRepository.findById(1l);
  25. if (optional.isPresent()){
  26. Blog blog = optional.get();
  27. blog.setTitle("hello update");
  28. blogRepository.save(blog);
  29. }
  30. }
  31. /**
  32. * 删除文档
  33. */
  34. @Test
  35. public void deleteDocument() {
  36. blogRepository.deleteById(1l);
  37. }
  38. /**
  39. * 查询所有 文档
  40. */
  41. @Test
  42. public void getDocument() {
  43. //根据id查找
  44. //Optional<Blog> optional = blogRepository.findById(1l);
  45. //Blog blog = optional.get();
  46. //System.out.println(blog);
  47. //查找全部
  48. //Iterable<Blog> all = blogRepository.findAll();
  49. //all.forEach(blog -> System.out.println(blog));
  50. //分页查找全部
  51. Iterable<Blog> all = blogRepository.findAll(PageRequest.of(1,10));
  52. all.forEach(blog -> System.out.println(blog));
  53. }
  54. /**
  55. * 自定义方法:根据title内容查询索引库
  56. * /
  57. @Test
  58. public void testFindByTitle(){
  59. List<Blog> blogList = blogRepository.findByTitle("测试");
  60. blogList.stream().forEach(System.out::println);
  61. }
  62. /**
  63. * 自定义方法:根据title,content内容查询索引库
  64. * /
  65. @Test
  66. public void testFindByTitleAndContent(){
  67. List<Blog> blogList = blogRepository.findByTitleAndContent("测试", "sjihfapf");
  68. blogList.stream().forEach(System.out::println);
  69. }
  70. }
  71. }
声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/AllinToyou/article/detail/310680
推荐阅读
相关标签
  

闽ICP备14008679号