【Elasticsearch】 06-管道聚合查询详解及示例_es 管道聚合

作者：神奇cpp | 2024-06-30 05:55:38

踩

es 管道聚合

1. 引言

Elasticsearch 是一款强大的分布式搜索和分析引擎，提供了丰富的聚合查询功能。在聚合查询中，管道聚合（Pipeline Aggregations）是一种特殊类型的聚合，它允许我们在其他聚合的基础上进行进一步的计算和分析。本文将详细介绍 Elasticsearch 的管道聚合查询，并提供示例演示和 Java 代码实现。

2. 什么是管道聚合查询？

管道聚合查询是一种在聚合查询结果上进行进一步计算和分析的方式。它可以用于计算新的指标、进行比较、排序和筛选等操作。管道聚合查询通常作为其他聚合查询的后续处理步骤。

3. 管道聚合查询的组成部分

在 Elasticsearch 中，管道聚合查询由三个组成部分构成：Buckets 聚合、Metrics 聚合和 Pipeline 聚合。

3.1 Buckets 聚合

Buckets 聚合将文档分组到不同的桶中。它可以使用 Terms Aggregation、Range Aggregation 等方式对文档进行分组。Buckets 聚合是管道聚合查询的起始点。

3.2 Metrics 聚合

Metrics 聚合对每个桶中的文档进行计算，生成统计指标。常见的 Metrics 聚合包括 Sum Aggregation、Average Aggregation、Min Aggregation 等。

3.3 Pipeline 聚合

Pipeline 聚合在 Metrics 聚合的基础上进行进一步的计算和分析。它可以对桶中的统计指标进行计算、比较、筛选和排序。Pipeline 聚合是管道聚合查询的核心部分。

4. 示例演示

假设我们有一个存储了订单信息的索引，其中包含了订单的金额和日期。我们希望按照日期对订单进行分组，并计算每天的订单总金额和平均金额。

示例数据：

[
  {
    "date": "2022-01-01",
    "amount": 100
  },
  {
    "date": "2022-01-01",
    "amount": 200
  },
  {
    "date": "2022-01-02",
    "amount": 150
  },
  {
    "

date": "2022-01-02",
    "amount": 300
  }
]
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20

示例查询：

GET /orders/_search
{
  "size": 0,
  "aggs": {
    "date_buckets": {
      "date_histogram": {
        "field": "date",
        "calendar_interval": "day"
      },
      "aggs": {
        "total_amount": {
          "sum": {
            "field": "amount"
          }
        },
        "avg_amount": {
          "avg_bucket": {
            "buckets_path": "total_amount"
          }
        }
      }
    }
  }
}
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24

返回结果：

{
  "aggregations": {
    "date_buckets": {
      "buckets": [
        {
          "key_as_string": "2022-01-01T00:00:00.000Z",
          "key": 1640995200000,
          "doc_count": 2,
          "total_amount": {
            "value": 300.0
          },
          "avg_amount": {
            "value": 150.0
          }
        },
        {
          "key_as_string": "2022-01-02T00:00:00.000Z",
          "key": 1641081600000,
          "doc_count": 2,
          "total_amount": {
            "value": 450.0
          },
          "avg_amount": {
            "value": 225.0
          }
        }
      ]
    }
  }
}
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30

解释：
通过使用日期直方图聚合（date_histogram）将订单按天进行分组。在每个桶内，我们使用总金额聚合（sum）计算该天的订单总金额，并使用平均桶聚合（avg_bucket）计算平均金额。返回结果显示了每天的订单数量、总金额和平均金额。

5. Java 代码实现

除了通过 Elasticsearch REST API 进行查询外，我们还可以通过 Java 客户端来实现管道聚合查询。

以下是使用 Elasticsearch Java 客户端进行管道聚合查询的示例代码：

import org.elasticsearch.action.search.SearchRequest;
import org.elasticsearch.action.search.SearchResponse;
import org.elasticsearch.client.RequestOptions;
import org.elasticsearch.client.RestHighLevelClient;
import org.elasticsearch.common.unit.TimeValue;
import org.elasticsearch.index.query.QueryBuilders;
import org.elasticsearch.search.aggregations.AggregationBuilders;
import org.elasticsearch.search.aggregations.bucket.histogram.DateHistogramInterval;
import org.elasticsearch.search.aggregations.pipeline.PipelineAggregatorBuilders;
import org.elasticsearch.search.builder.SearchSourceBuilder;

import java.io.IOException;

public class PipelineAggregationExample {

    public static void main(String[] args) {
        try (RestHighLevelClient client = createClient()) {
            SearchRequest request = new SearchRequest("orders");
            SearchSourceBuilder sourceBuilder = new SearchSourceBuilder();

            // 设置查询条件
            sourceBuilder.query(QueryBuilders.matchAllQuery());

            // 添加桶聚合查询
            sourceBuilder.aggregation(AggregationBuilders.dateHistogram("date_buckets")
                    .field("date")
                    .calendarInterval(DateHistogramInterval.DAY)
                    .subAggregation(AggregationBuilders.sum("total_amount")
                            .field("amount"))
                    .subAggregation(PipelineAggregatorBuilders.avgBucket("avg_amount", "total_amount")));

            // 设置返回结果大小和超时时间
            sourceBuilder.size(0);
            sourceBuilder.timeout(TimeValue.timeValueSeconds(5));

            request.source(sourceBuilder);

            // 执行查询
            SearchResponse response = client.search(request, RequestOptions.DEFAULT);

            // 处理结果
            // TODO: 处理管道聚合查询结果

        } catch (IOException e) {
            e.printStackTrace();
        }
    }

    private static RestHighLevelClient createClient() {
        // 创建并返回 Elasticsearch 客户端
    }
}
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52

6. 结论

本文详细介绍了 Elasticsearch 管道聚合查询的概念和组成部分，以及如何使用 Elasticsearch 的管道聚合查询功能。通过示例数据和查询语句演示，我们了解了如何使用管道聚合查询对数据进行更深入的计算和分析。此外，还提供了 Java 代码实现的示例，帮助开发者在实际项目中应用管道聚合查询。

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/神奇cpp/article/detail/771588