赞
踩
在之前我们详细面熟了es的查询用法,但是es还拥有强大的聚合查询功能,可以得到类似分组,直方图,折线图等数据组合。类似SQL的SUM、AVG、COUNT、GROUP BY
Elasticsearch-02-es的restapi使用
ES聚合查询类似SQL的GROUP by,一般统计分析主要分为两个步骤:
对查询的数据首先进行一轮分组,可以设置分组条件,例如:新生入学,把所有的学生按专业分班,这个分班的过程就是对学生进行了分组。
组内聚合,就是对组内的数据进行统计,例如:计算总数、求平均值等等,接上面的例子,学生都按专业分班了,那么就可以统计每个班的学生总数, 这个统计每个班学生总数的计算,就是组内聚合计算。
es中满足特定条件的文档的集合,叫做桶。
桶的就是一组数据的集合,对数据分组后,得到一组组的数据,就是一个个的桶。
提示:桶等同于组,分桶和分组是一个意思,ES使用桶代表一组相同特征的数据。
ES中桶聚合,指的就是先对数据进行分组,ES支持多种分组条件,例如:支持类似SQL的group by根据字段分组,当然ES比SQL更强大,支持更多的分组条件,以满足各种统计需求
指标指的是对文档进行统计计算方式,又叫指标聚合。
桶内聚合,说的就是先对数据进行分组(分桶),然后对每一个桶内的数据进行指标聚合。
说白了就是,前面将数据经过一轮桶聚合,把数据分成一个个的桶之后,我们根据上面计算指标对桶内的数据进行统计。比如计算每个桶内,最大值,最小值,平均值等
常用的指标有:SUM、COUNT、MAX等统计函数。
Elasticsearch桶聚合,目的就是数据分组,先将数据按指定的条件分成多个组,然后对每一个组进行统计。 组的概念跟桶是等同的,在ES中统一使用桶(bucket)这个术语。
ES桶聚合的作用跟SQL的group by的作用是一样的,区别是ES支持更加强大的数据分组能力,SQL只能根据字段的唯一值进行分组,分组的数量跟字段的唯一值的数量相等,例如: group by 店铺id, 去掉重复的店铺ID后,有多少个店铺就有多少个分组。
ES常用的桶聚合如下:
terms聚合的作用跟SQL中group by作用一样,都是根据字段唯一值对数据进行分组(分桶),字段值相等的文档都分到同一个桶内。
GET person_info/_search
{
"size": 0, //这是为了不返回数据,只返回聚合结果
"aggs": {
"buket_name": { // 聚合查询名字,随便取一个
"terms": { //聚合类型为: terms
"field": "source.keyword" //根据source值来分组
}
}
}
}
结果:
{
"took" : 82,
"timed_out" : false,
"_shards" : {
"total" : 3,
"successful" : 3,
"skipped" : 0,
"failed" : 0
},
"hits" : {
"total" : {
"value" : 6854,
"relation" : "eq"
},
"max_score" : null,
"hits" : [ ]
},
"aggregations" : {
"buket_name" : {
"doc_count_error_upper_bound" : 10,
"sum_other_doc_count" : 1261,
"buckets" : [
{
"key" : "填表",
"doc_count" : 5340
},
{
"key" : "普查",
"doc_count" : 56
},
{
"key" : "网上下载",
"doc_count" : 39
}
]
}
}
}
histogram(直方图)聚合,主要根据数值间隔分组,使用histogram聚合分桶统计结果,通常用在绘制条形图报表。
GET person_info/_search
{
"size": 0, //这是为了不返回数据,只返回聚合结果
"aggs": {
"buket_name": { // 聚合查询名字,随便取一个
"histogram": { // 聚合类型为:histogram
"field": "age", //对age字段进行分类
"interval": 5 //数字间隔为5
}
}
}
}
结果:
{
"took" : 4,
"timed_out" : false,
"_shards" : {
"total" : 3,
"successful" : 3,
"skipped" : 0,
"failed" : 0
},
"hits" : {
"total" : {
"value" : 6854,
"relation" : "eq"
},
"max_score" : null,
"hits" : [ ]
},
"aggregations" : {
"buket_name" : {
"buckets" : [
{
"key" : 10,
"doc_count" : 814
},
{
"key" : 15.0,
"doc_count" : 1612
},
{
"key" : 20.0,
"doc_count" : 1290
},
{
"key" : 25.0,
"doc_count" : 3138
}
]
}
}
}
类似histogram聚合,区别是Date histogram可以很好的处理时间类型字段,主要用于根据时间、日期分桶的场景。
GET person_info/_search
{
"size": 0,
"aggs": {
"buket_name": { //这是为了不返回数据,只返回聚合结果
"date_histogram": { // 聚合类型为: date_histogram
"field": "data", // 根据date字段分组
"calendar_interval": "month", // 分组间隔,详解在下边
"format" : "yyyy-MM-dd", // 设置返回结果中桶key的时间格式
"time_zone": "+08:00", //**设置时区,如果存入的时候没设置就不用填**
"min_doc_count": 0, // 没有数据的月份返回0
"extended_bounds": { //强制返回的日期区间,既需要填充0的范围
"min": "2000-01-01",
"max": "2003-01-01"
}
}
}
}
}
结果:
{
"took" : 17,
"timed_out" : false,
"_shards" : {
"total" : 3,
"successful" : 3,
"skipped" : 0,
"failed" : 0
},
"hits" : {
"total" : {
"value" : 6854,
"relation" : "eq"
},
"max_score" : null,
"hits" : [ ]
},
"aggregations" : {
"buket_name" : {
"buckets" : [
{
"key_as_string" : "2002-01-01",
"key" : 1009843200000,
"doc_count" : 5
}
]
}
}
}
参考
minute (1m)
hour(1h)
day(1d)
week(1w)
month(1m)
quarter( 季度1q)
year(1y)
与日历感知间隔不同,固定间隔是固定数量的国际单位制(SI)单位,无论它们在日历上的位置如何,都不会偏离。 一秒钟总是由1000毫秒组成。 这允许以支持单位的任何倍数值指定固定间隔。
然而,这意味着固定的间隔不能表达其他单位,如“月(month)”,因为一个月的持续时间不是一个固定的量。 试图指定月或季度(quarter)等日历间隔将引发异常。
固定间隔支持的单位有:
毫秒 (ms)
秒 (s):定义为每个1000毫秒
分钟 (m):所有分钟都从00秒开始。 定义为每个60秒(60,000毫秒)
小时 (h):所有小时都从00分00秒开始。 定义为每60分钟(3,600,000毫秒)
天 (d):所有天都在尽可能早的时间开始,通常是00:00:00(午夜)。 定义为24小时(86,400,000毫秒)
GET /xxx/_search
{
"query": {
"range": {
"alarmNum": {
"gte": 20,
"lte": 50
}
}
},
"size": 0,
"aggs": {
"warncont": {
"range": {
"field": "alarmNum",
"ranges": [
{
"to": 24 #<
},
{
"from": 24, #>= and <
"to": 32
},
{
"from": 32 #>=
}
]
}
}
}
}
ES指标聚合,就是类似SQL的统计函数,指标聚合可以单独使用,也可以跟桶聚合一起使用。
常用的统计函数如下:
GET /sales/_search?size=0
{
"aggs": {
"types_count": { // 聚合查询的名字,随便取个名字
"value_count": { // 聚合类型为:value_count
"field": "type" // 计算type这个字段值的总数
}
}
}
}
等价SQL:
select count(type) from sales
POST /sales/_search?size=0
{
"aggs" : {
"type_count" : { // 聚合查询的名字,随便取一个
"cardinality" : { // 聚合查询类型为:cardinality
"field" : "type" // 根据type这个字段统计文档总数
}
}
}
}
等价SQL:
select count(DISTINCT type) from sales
POST /exams/_search?size=0
{
"aggs": {
"avg_grade": { // 聚合查询名字,随便取一个名字
"avg": { // 聚合查询类型为: avg
"field": "grade" // 统计grade字段值的平均值
}
}
}
}
GET /project_zcy/_search
{
"size": 0,
"query": {
"term": {
"project_status.keyword": {
"value": "执行中"
}
}
},
"aggs": {
"institue_bulk": {
"terms": {
"field": "institute_code.keyword", #分组code
"order": {
"_count": "asc"
}
},
"aggs": {
"depart_bulk": {
"terms": {
"field": "institute_name.keyword" #再次分组获取名称
},
"aggs": { #指标sum
"warm_sum": {
"sum": {
"field": "alarmNum"
}
},
"index_count": { #指标count
"value_count": {
"field": "institute_code.keyword"
}
}
}
}
}
}
}
}
排序是对桶里面数据排序
默认情况,ES会根据doc_count文档总数,降序排序。
ES桶聚合支持两种方式排序:
内置排序参数:
GET /cars/_search
{
"size" : 0,
"aggs" : {
"colors" : { // 聚合查询名字,随便取一个
"terms" : { // 聚合类型为: terms
"field" : "color",
"order": { // 设置排序参数
"_count" : "asc" // 根据_count排序,asc升序,desc降序
}
}
}
}
}
通常情况下,我们根据桶聚合分桶后,都会对桶内进行多个维度的指标聚合,所以我们也可以根据桶内指标聚合的结果进行排序。
GET /cars/_search
{
"size" : 0,
"aggs" : {
"colors" : { // 聚合查询名字
"terms" : { // 聚合类型: terms,先分桶
"field" : "color", // 分桶字段为color
"order": { // 设置排序参数
"avg_price" : "asc" // 根据avg_price指标聚合结果,升序排序。
}
},
"aggs": { // 嵌套聚合查询,设置桶内聚合指标
"avg_price": { // 聚合查询名字,前面排序引用的就是这个名字
"avg": {"field": "price"} // 计算price字段平均值
}
}
}
}
}
GET /_search
{
"aggs" : {
"products" : { // 聚合查询名字
"terms" : { // 聚合类型为: terms
"field" : "product", // 根据product字段分桶
"size" : 5 // 限制最多返回5个桶
}
}
}
}
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。