当前位置:   article > 正文

hive中灵活运用正则表达式处理字段_hive 正则选择字段

hive 正则选择字段

灵活运用正则表达式


hive中经常会需要处理字符串,本篇文章就来聊聊如何灵活运用正则表达式来出来数据;
正则表达式中的符号介绍
^ 匹配输入字符串的开始位置。
$ 匹配输入字符串的结束位置。
[…] 字符集合。匹配所包含的任意一个字符。例如, ‘[abc]’ 可以匹配 “plain” 中的 ‘a’。
[^…] 负值字符集合。匹配未包含的任意字符。例如, ‘[^abc]’ 可以匹配 “plain” 中的’p’。
p1|p2|p3 匹配 p1 或 p2 或 p3。例如,‘z|food’ 能匹配 “z” 或 “food”。’(z|f)ood’ 则匹配 “zood” 或 “food”。

  • 匹配前面的子表达式零次或多次。例如,zo* 能匹配 “z” 以及 “zoo”。* 等价于{0,}。
  • 匹配前面的子表达式一次或多次。例如,‘zo+’ 能匹配 “zo” 以及 “zoo”,但不能匹配 “z”。+ 等价于 {1,}。
    {n} n 是一个非负整数。匹配确定的 n 次。例如,‘o{2}’ 不能匹配 “Bob” 中的 ‘o’,但是能匹配 “food” 中的两个 o。

hive中可是使用正则表达式相关的函数有:
REGEXP:与like字符类似,功能更强大;
REGEXP_REPLACE:与replace函数类似,功能更强大;

创建如下表:regexp_test(string1);
字段值如下:
string1
16857845258
13856895874
13647148565
15825487565
12453654
12306
95548
95547
4004844258
a124s14d25
sq457w451
12345@
1574@1577
10271741@qq.com
158876@163.com
010-88625458
{1:2,3:5}
ten123c5e7nt

首先来说说regexp的用法:
如果想要找出表中的手机号码、邮箱、电话号码,这时候我们用like就基本很难实现了,like欠缺的是数字匹配、字符匹配还有字符长度的问题,当然你可以用无数个_来标识个数,但是很困难也很容易出错,这时用正则可以很简单的匹配这些;
手机号码:第一位数为1,第二位为3/5/8,之后九位就是随意排布了,正则表达式为:’^1[358][0-9]{9}’;
SELECT string1
from regexp_test
where string1 regexp ‘^1[3|5|8][1-9]{9}’

结果:
序号 string1
1 13856895874
2 13647148565
3 15825487565

regexp_replace函数:
把字符串中的数字全部换成空值:
SELECT string1,regexp_replace(string1,’[1-9]’,’’)
from regexp_test;
结果:
1-9数字替换为空值
日常中字符的处理掌握正则以后就将变得很简单了。

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/2023面试高手/article/detail/605155
推荐阅读
相关标签
  

闽ICP备14008679号