当前位置:   article > 正文

Hive函数 EXPLODE 和 POSEXPLODE 使用示例_hive exploded

hive exploded

Hive函数 EXPLODE 和 POSEXPLODE 使用示例

Hive中, explode 和 posexplode 是两个常用的函数,用于处理复杂数据类型,如数组和map。以下是它们的具体应用示例和介绍:

1. 创建了一个名为 students 的表,包括 group_name (组名)和 names (学生名字数组)两个字段。
CREATE TABLE students
(
    group_name STRING,
    names      ARRAY<STRING>
); 
  • 1
  • 2
  • 3
  • 4
  • 5
2. 使用INSERT语句向 students 表中插入数据,每个组包含多个学生名字。
INSERT OVERWRITE TABLE students
SELECT 'A组', ARRAY('Jack', 'John', 'Lucy')
UNION ALL
SELECT 'B组', ARRAY('Caocao', 'Lvbu');
  • 1
  • 2
  • 3
  • 4
3. 第一个查询使用 EXPLODE 函数展开数组列 names ,输出每个组的学生名字。
SELECT group_name, name
FROM students LATERAL VIEW EXPLODE(names) exploded_name AS name;

执行结果:
| group_name | name |
|------------|------|
| A组        | Jack |
| A组        | John |
| A组        | Lucy |
| B组        | Caocao |
| B组        | Lvbu |
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
4. 第二个查询使用 POSEXPLODE 函数展开数组列 names ,同时输出学生名字和其在数组中的位置。
SELECT group_name, name, pos
FROM students LATERAL VIEW POSEXPLODE(names) exploded_name AS pos, name;

执行结果:
| group_name | name   | pos |
|------------|--------|-----|
| A组        | Jack   | 0   |
| A组        | John   | 1   |
| A组        | Lucy   | 2   |
| B组        | Caocao | 0   |
| B组        | Lvbu   | 1   |
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
5. 第三个查询统计每个学生名字中的字符出现次数,并按出现次数降序排序。
SELECT character, count(1) AS cnt
FROM (
         SELECT name
         FROM students LATERAL VIEW EXPLODE(names) exploded_name AS name
     ) T LATERAL VIEW EXPLODE(SPLIT(T.name, '(?!$)')) exploded_character AS character
GROUP BY character
ORDER BY cnt DESC;

执行结果:
| character | cnt |
|-----------|-----|
| c         | 3   |
| o         | 3   |
| a         | 3   |
| u         | 2   |
| L         | 2   |
| J         | 2   |
| y         | 1   |
| v         | 1   |
| n         | 1   |
| k         | 1   |
| h         | 1   |
| b         | 1   |
| C         | 1   |
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
  • 14
  • 15
  • 16
  • 17
  • 18
  • 19
  • 20
  • 21
  • 22
  • 23
  • 24

上述代码演示了在Hive中使用 EXPLODE 和 POSEXPLODE 函数处理数组类型数据的示例,以及统计字符出现次数并排序的操作。

总结使用场景:

  • EXPLODE 函数常用于展开数组类型的列,将数组中的元素拆分成多行,适用于需要对数组元素进行单独处理或分析的情况。
  • POSEXPLODE 函数与 EXPLODE 类似,但同时返回数组中的元素以及元素的位置(索引),适用于需要同时处理数组元素和其位置的场景。
  • 这两个函数在处理复杂数据结构、数据清洗、数据转换等场景中非常有用,可以帮助用户轻松处理数组或map类型的数据,实现更复杂的数据处理需求。
声明:本文内容由网友自发贡献,转载请注明出处:【wpsshop】
推荐阅读
相关标签
  

闽ICP备14008679号