赞
踩
UDF的全称为User Defined Function,用户定义函数.对单行记录进行处理.
如果hive的sql语句中无法轻松地使用hive提供的内置函数来表示,就需要通过写UDF函数解决了.
Hive可以方便地插入用户写的处理代码并在查询中使用它们,相当于在HQL中自定义一些函数.
1、自定义Java类并继承org.apache.hadoop.hive.ql.exec.UDF;
2、覆写evaluate函数,evaluate函数支持重载;
3、把程序打包放到hive所在服务器;
4、进入hive客户端,添加jar包;
5、创建关联到Java类的Hive函数;
6、在Hive语句中使用UDF函数。
假设有如下需求:
对手机号码进行判断、处理
• 能够对输入数据进行非空判断、手机号位数判断
• 能够实现校验手机号格式,把满足规则的进行****(部分隐藏)处理
• 对于不符合手机号规则的数据直接返回,不处理
1.Maven配置
<dependencies>
<dependency>
<groupId>org.apache.hive</groupId>
<artifactId>hive-exec</artifactId>
<version>3.1.2</version>
</dependency>
<dependency>
<groupId>org.apache.hadoop</groupId>
<artifactId>hadoop-common</artifactId>
<version>3.1.4</version>
</dependency>
</dependencies>
2.Java代码编写
package cn.test.hive.udf; import org.apache.commons.lang.StringUtils; import org.apache.hadoop.hive.ql.exec.UDF; import java.util.regex.Matcher; import java.util.regex.Pattern; /** * hive自定义函数UDF 实现对手机号中间4位进行****加密 */ public class EncryptPhoneNumber extends UDF { /** * 重载evaluate方法 实现函数的业务逻辑 * @param phoNum 入参:未加密手机号 * @return 返回:加密后的手机号字符串 */ public String evaluate(String phoNum){ String encryptPhoNum = null; //手机号不为空 并且为11位 if (StringUtils.isNotEmpty(phoNum) && phoNum.trim().length() == 11 ) { //判断数据是否满足中国大陆手机号码规范 String regex = "^(1[3-9]\\d{9}$)"; Pattern p = Pattern.compile(regex); Matcher m = p.matcher(phoNum); if (m.matches()) {//进入这里都是符合手机号规则的 //使用正则替换 返回加密后数据 encryptPhoNum = phoNum.trim().replaceAll("(\\d{3})\\d{4}(\\d{4})","$1****$2"); }else{ //不符合手机号规则 数据直接原封不动返回 encryptPhoNum = phoNum; } }else{ //不符合11位 数据直接原封不动返回 encryptPhoNum = phoNum; } return encryptPhoNum; } }
3.IDEA中使用集成的Maven插件进行打包
4.Jar包上传HS2本地服务器
5.将Jar添加至Hive Classpath中
add jar /root/hive-udf.jar
6.注册临时函数
create temporary function 函数名 as 'UDF类全路径';
7.使用udf函数
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。