寸_铁

这个屌丝很懒，什么也没留下！

热门标签

热门文章

当前位置: article > 正文

hive udaf_Hive UDAF开发详解

作者：寸_铁 | 2024-06-24 19:48:35

赞

踩

hive开发udaf

说明

udfa是Hive中用户自定义的聚集函数，hive内置UDAF函数包括有sum()与count()，UDAF实现有简单与通用两种方式，简单UDAF因为使用Java反射导致性能损失，而且有些特性不能使用，已经被弃用了；在这篇博文中我们将关注Hive中自定义聚类函数-GenericUDAF，UDAF开发主要涉及到以下两个抽象类：org.apache.hadoop.hive.ql.udf.generic.AbstractGenericUDAFResolver

org.apache.hadoop.hive.ql.udf.generic.GenericUDAFEvaluator

源码链接

博文中的所有的代码和数据可以在以下链接找到：hive examples

示例数据准备

首先先创建一张包含示例数据的表：people，该表只有name一列，该列中包含了一个或多个名字，该表数据保存在people.txt文件中。~$ cat ./people.txt

John Smith

John and Ann White

Ted Green

Dorothy

把该文件上载到hdfs目录/user/matthew/people中：hadoop fs -mkdir people

hadoop fs -put ./people.txt people

下面要创建hive外部表，在hive shell中执行

CREATEEXTERNALTABLEpeople (namestring)

ROW FORMAT DELIMITED FIELDS

TERMINATED BY'\t'

ESCAPED BY''

LINES TERMINATED BY'\n'

STORED ASTEXTFILE

LOCATION '/user/matthew/people';

相关抽象类介绍

创建一个GenericUDAF必须先了解以下两个抽象类：org.apache.hadoop.hive.ql.udf.generic.AbstractGenericUDAFResolverorg.apache.hadoop.hive.ql.udf.generic.GenericUDAFEvaluator

为了更好理解上述抽象类的API，要记住hive只是mapreduce函数，只不过hive已经帮助我们写好并隐藏mapreduce，向上提供简洁的sql函数，所以我们要结合Mapper、Combiner与Reducer来帮助我们理解这个函数。要记住在Hadoop集群中有若干台机器，在不同的机器上Mapper与Reducer任务独立运行。

所以大体上来说，这个UDAF函数读取数据(mapper)，聚集一堆mapper输出到部分聚集结果(combiner)，并且最终创建一个最终的聚集结果(reducer)。因为我们跨域多个combiner进行聚集，所以我们需要保存部分聚集结果。

AbstractGenericUDAFResolver

Resolver很简单，要覆盖实现下面方法，该方法会根据sql传人的参数数据格式指定调用哪个Evaluator进行处理。publicGenericUDAFEvaluator getEvaluator(TypeInfo[] parameters)throwsSemanticException;

GenericUDAFEvaluator

UDAF逻辑处理主要发生在Evaluator中，要实现该抽象类的几个方法。

在理解Evaluator之前，必须先理解objectInspector接口与GenericUDAFEvaluator中的内部类Model。

ObjectInspector

作用主要是解耦数据使用与数据格式，使得数据流在输入输出端切换不同的输入输出格式，不同的Operator上使用不同的格式。可以参考这两篇文章：first post on Hive UDFs、Hive中ObjectInspector的作用，里面有关于objectinspector的介绍。

Model

Model代表了UDAF在mapreduc

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/寸_铁/article/detail/753821

推荐阅读

相关标签

Copyright © 2003-2013 www.wpsshop.cn 版权所有，并保留所有权利。

闽ICP备14008679号