当前位置:   article > 正文

Apache AGE 聚合函数

Apache AGE 聚合函数

简介

一般来说,聚合函数 aggr(expr) 会处理每个聚合键在传入记录中找到的所有匹配行(键使用等价性进行比较)。

在常规聚合(即形式为 aggr(expr) 的情况下),聚合值列表是候选值列表,其中所有空值都被移除。

初始数据

  1. sqlCopy code
  2. SELECT * FROM cypher('graph_name', $$
  3. CREATE (a:Person {name: 'A', age: 13}),
  4. (b:Person {name: 'B', age: 33, eyes: "blue"}),
  5. (c:Person {name: 'C', age: 44, eyes: "blue"}),
  6. (d1:Person {name: 'D', eyes: "brown"}),
  7. (d2:Person {name: 'D'}),
  8. (a)-[:KNOWS]->(b),
  9. (a)-[:KNOWS]->(c),
  10. (a)-[:KNOWS]->(d1),
  11. (b)-[:KNOWS]->(d2),
  12. (c)-[:KNOWS]->(d2)
  13. $$) as (a agtype);

自动分组

为了计算聚合数据,Cypher 提供了与 SQL 的 GROUP BY 相类似的聚合功能。

聚合函数接受一组值并计算它们的聚合值。例如,avg() 计算多个数值的平均值,或者 min() 在一组值中找到最小的数值或字符串值。当我们说下面一个聚合函数在一组值上操作时,我们指的是这些值是对相同聚合组内所有记录应用内部表达式(例如 n.age)的结果。

聚合可以在所有匹配的子图上计算,也可以通过引入分组键进一步分割。这些是非聚合表达式,用于对进入聚合函数的值进行分组。

假设我们有以下返回语句:

  1. sqlCopy code
  2. SELECT * FROM cypher('graph_name', $$
  3. MATCH (v:Person)
  4. RETURN v.name, count(*)
  5. $$) as (grouping_key agtype, count agtype);

我们有两个返回表达式:grouping_key 和 count()。第一个 grouping_key 不是一个聚合函数,因此它将成为分组键。后者 count() 是一个聚合表达式。匹配的子图将被划分为不同的桶,具体取决于分组键。然后将在这些桶上运行聚合函数,为每个桶计算一个聚合值。

在聚合函数上进行排序

要使用聚合函数对结果集进行排序,聚合必须包含在 RETURN 中以便在 ORDER BY 中使用。

  1. sqlCopy code
  2. SELECT *
  3. FROM cypher('graph_name', $$
  4. MATCH (me:Person)-[]->(friend:Person)
  5. RETURN count(friend), me
  6. ORDER BY count(friend)
  7. $$) as (friends agtype, me agtype);

唯一聚合

在唯一聚合(即形式为 aggr(DISTINCT expr) 的情况下),聚合值列表是候选值列表,其中所有空值都被移除。此外,在唯一聚合中,只有所有等价候选值中的一个被包含在聚合值列表中,即等价性下的重复项被移除。

DISTINCT 操作符与聚合一起使用。它用于使所有值在通过聚合函数之前变得唯一。

  1. sqlCopy code
  2. SELECT *
  3. FROM cypher('graph_name', $$
  4. MATCH (v:Person)
  5. RETURN count(DISTINCT v.eyes), count(v.eyes)
  6. $$) as (distinct_eyes agtype, eyes agtype);

模糊的分组语句

不要求用户为查询指定其分组键的这个特性可能导致 Cypher 应将什么视为其分组键的模糊性。点击此处了解更多详细信息。

数据设置

  1. sqlCopy code
  2. SELECT * FROM cypher('graph_name', $$
  3. CREATE (:L {a: 1, b: 2, c: 3}),
  4. (:L {a: 2, b: 3, c: 1}),
  5. (:L {a: 3, b: 1, c: 2})
  6. $$) as (a agtype);

在 AGE 中的无效查询

AGE 对这个问题的解决方案是不允许 WITH 或 RETURN 列结合不在相同 WITH 或 RETURN 子句的另一列中明确列出的变量与聚合函数相结合。

查询:

  1. sqlCopy code
  2. SELECT * FROM cypher('graph_name', $$
  3. MATCH (x:L)
  4. RETURN x.a + count(*) + x.b + count(*) + x.c
  5. $$) as (a agtype);

结果:

  1. sqlCopy code
  2. ERROR: "x" must be either part of an explicitly listed key or used inside an aggregate function
  3. LINE 3: RETURN x.a + count(*) + x.b + count(*) + x.c

AGE 中的有效查询

在 AGE 中不包括聚合函数的列被视为该 WITH 或 RETURN 子句的分组键。

对于上述查询,用户可以以多种方式重写查询以返回结果。

查询:

  1. sqlCopy code
  2. SELECT * FROM cypher('graph_name', $$
  3. MATCH (x:L)
  4. RETURN (x.a + x.b + x.c) + count(*) + count(*), x.a + x.b + x.c
  5. $$) as (count agtype, key agtype);

x.a + x.b + x.c 是分组键。这样创建的分组键必须包含括号。

结果

  1. sqlCopy code
  2. count key
  3. 12 6
  4. 1 row

查询

  1. sqlCopy code
  2. SELECT * FROM cypher('graph_name', $$
  3. MATCH (x:L)
  4. RETURN x.a + count(*) + x.b + count(*) + x.c, x.a, x.b, x.c
  5. $$) as (count agtype, a agtype, b agtype, c agtype);

x.a、x.b 和 x.c 将被视为不同的分组键

结果:

  1. sqlCopy code
  2. abc
  3. count
  4. 8 3 1 2
  5. 8 2 3 1
  6. 8 1 2 3
  7. 3 rows

在模糊分组中的顶点和边

或者,分组键可以是一个顶点或边,然后可以指定顶点或边的任何属性,而不需要在 WITH 或 RETURN 列中明确声明。

  1. sqlCopy code
  2. SELECT * FROM cypher('graph_name', $$
  3. MATCH (x:L)
  4. RETURN count(*) + count(*) + x.a + x.b + x.c, x
  5. $$) as (count agtype, key agtype);

结果将根据 x 分组,因为可以安全地假设属性被视为分组不明确。

结果

  1. sqlCopy code
  2. key
  3. count
  4. 8 {"id": 1407374883553283, "label": "L", "properties": {"a": 3, "b": 1, "c": 2}}::vertex
  5. 8 {"id": 1407374883553281, "label": "L", "properties": {"a": 1, "b": 2, "c": 3}}::vertex
  6. 8 {"id": 1407374883553282, "label": "L", "properties": {"a": 2, "b": 3, "c": 1}}::vertex
  7. 3 rows

隐藏不想要的分组键

如果认为分组键对查询输出无关紧要,则可以在 WITH 子句中进行聚合,然后将信息传递给 RETURN 子句。

  1. sqlCopy code
  2. SELECT * FROM cypher('graph_name', $$
  3. MATCH (x:L)
  4. WITH count(*) + count(*) + x.a + x.b + x.c as column, x
  5. RETURN column
  6. $$) as (a agtype);

结果

  1. sqlCopy code
  2. a
  3. 8
  4. 8
  5. 8
  6. 3 rows

 使用公有云服务

一些公有云的提供了免安装的数据库服务,无需自己部署。以MemFireCloud为例

直接连接

每个MemFire Cloud应用内置一个完整的Postgres数据库,你可以使用任何支持Postgres的工具来连接到数据库。你可以在控制台内的数据库设置中获取连接信息:

  1. 来到左侧菜单栏的 设置部分
  2. 点击数据库
  3. 启用数据库直连
  4. 找到应用的连接信息

开启直连

白名单

MemFire Cloud内置白名单功能,开启白名单后,只允许白名单内的IP地址段访问你的数据库。关闭白名单后,访问你数据库的IP地址不受限制,即任何IP地址只要有连接信息都可以与你的数据库进行直连。 在进行白名单配置时,要遵循CIDR规则。MemFire Cloud中白名单功能 默认是关闭的,需用户手动开启。

配置白名单

通过数据库客户端连接数据库,可以执行图操作

  1. CREATE EXTENSION age;
  2. LOAD 'age';
  3. SET search_path = ag_catalog, "$user", public;

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/我家小花儿/article/detail/851429
推荐阅读
相关标签
  

闽ICP备14008679号