赞
踩
hive中可是使用正则表达式相关的函数有:
REGEXP:与like字符类似,功能更强大;
REGEXP_REPLACE:与replace函数类似,功能更强大;
创建如下表:regexp_test(string1);
字段值如下:
string1
16857845258
13856895874
13647148565
15825487565
12453654
12306
95548
95547
4004844258
a124s14d25
sq457w451
12345@
1574@1577
10271741@qq.com
158876@163.com
010-88625458
{1:2,3:5}
ten123c5e7nt
首先来说说regexp的用法:
如果想要找出表中的手机号码、邮箱、电话号码,这时候我们用like就基本很难实现了,like欠缺的是数字匹配、字符匹配还有字符长度的问题,当然你可以用无数个_来标识个数,但是很困难也很容易出错,这时用正则可以很简单的匹配这些;
手机号码:第一位数为1,第二位为3/5/8,之后九位就是随意排布了,正则表达式为:’^1[358][0-9]{9}’;
SELECT string1
from regexp_test
where string1 regexp ‘^1[3|5|8][1-9]{9}’
结果:
序号 string1
1 13856895874
2 13647148565
3 15825487565
regexp_replace函数:
把字符串中的数字全部换成空值:
SELECT string1,regexp_replace(string1,’[1-9]’,’’)
from regexp_test;
结果:
日常中字符的处理掌握正则以后就将变得很简单了。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。