elasticsearch的聚合技术全面解析_elasticsearchrepository注解式开发聚合

作者：人工智能uu | 2024-07-27 10:27:16

踩

elasticsearchrepository注解式开发聚合

一、聚合基础

聚合 (Aggregation)*是一种在 Elasticsearch 中对数据进行分组、统计、计算和分析的操作。它与搜索请求一起执行，但关注的是数据的汇总而非具体的文档列表。聚合结果通常以层次化的结构返回，便于进一步处理和可视化。

二、聚合类型

1. Bucket 聚合 (Bucket Aggregations)

Bucket 聚合用于对数据进行分桶（grouping），将数据集划分为多个逻辑桶，每个桶代表一类数据。常见的 Bucket 聚合包括：

Terms 聚合：按某个字段的值进行分桶，统计每个值出现的次数（文档计数）。
Histogram 聚合：基于数值字段的区间（bucket）进行分桶，常用于时间序列分析。
Range 聚合：按指定数值范围进行分桶。
Date Range 聚合：特别针对日期字段，按日期范围进行分桶。
Filter 聚合：根据布尔查询筛选数据，形成单独的桶。
Geo Distance 聚合：基于地理距离进行分桶，常用于地理空间数据分析。
Nested 聚合：处理嵌套文档，允许在嵌套对象上进行分桶操作。
IP Range 聚合：对 IP 地址字段按 IP 范围进行分桶。

2. Metric 聚合 (Metric Aggregations)

Metric 聚合用于计算单个数值指标，如平均值、总和、最大值、最小值等。常见的 Metric 聚合包括：

Count 聚合：计算匹配查询的文档总数。
Sum 聚合：计算数值字段的总和。
Average 聚合：计算数值字段的平均值。
Min/Max 聚合：分别计算数值字段的最小值和最大值。
Stats 聚合：提供数值字段的统计信息，包括计数、总和、平均值、最小值、最大值。
Extended Stats 聚合：提供更详细的统计信息，如方差、标准差、四分位数等。
Percentiles 聚合：计算数值字段指定百分位数的值。
Cardinality 聚合：估算唯一值的数量，适用于高基数字段。

3. Pipeline 聚合 (Pipeline Aggregations)

Pipeline 聚合对其他聚合的结果进行二次处理，实现更复杂的聚合逻辑。它们不直接操作原始文档，而是消费其他聚合产生的桶或指标。常见的 Pipeline 聚合包括：

Bucket Script 聚合：对 Bucket 聚合的每个桶应用脚本，生成新的聚合值。
Sum Bucket 聚合：对多个 Bucket 聚合的子桶求和。
Avg Bucket 聚合：对多个 Bucket 聚合的子桶求平均值。
Max/Min Bucket 聚合：找出多个 Bucket 聚合中子桶的最大/最小值。
Derivative 聚合：计算相邻桶之间某个 Metric 聚合值的变化率。
Cumulative Sum 聚合：对一系列 Metric 聚合值累计求和。
Moving Average 聚合：计算滑动窗口内的平均值。

三、聚合结构

聚合结果通常以树状结构返回，每个聚合可以嵌套其他聚合，形成多层次的聚合链。这种结构允许用户逐步细化分析，从宏观到微观逐步揭示数据特征。

四、聚合操作

聚合操作通常与搜索请求结合使用，通过在查询 DSL 中定义聚合部分实现。聚合请求可以独立于搜索结果，也可以与搜索结果关联，展示在搜索结果的上下文中。

五、聚合使用示例

以下是一个简单的聚合请求示例，展示了 Terms 聚合和 Avg 聚合的组合使用：

GET /my_index/_search
{
  "size": 0, // 不返回匹配文档，仅聚合结果
  "aggs": {
    "by_category": { // Bucket 聚合：按 category 字段分桶
      "terms": {
        "field": "category"
      },
      "aggs": { // 在每个 bucket 内进一步聚合
        "avg_price": { // Metric 聚合：计算每个 category 的平均 price
          "avg": {
            "field": "price"
          }
        }
      }
    }
  }
}
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18

六、聚合性能优化

选择合适的聚合类型：根据业务需求选择最适合的聚合类型，避免不必要的复杂度。
限制返回结果：使用 size 参数限制返回的桶数量，避免消耗过多内存和带宽。
预聚合：对于大量数据，可以考虑使用脚本字段或 Ingest Node 进行预聚合，减少聚合阶段的计算量。
监控资源使用：监控集群资源使用情况，确保聚合操作不会导致节点过载。

七、可视化与仪表板

聚合结果可以直接用于数据可视化，如通过 Kibana 创建图表、仪表板，直观展示数据分布、趋势、关联等信息。

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/人工智能uu/article/detail/889823