赞
踩
正则表达式也叫做匹配模式(Pattern),它由一组具有特定含义的字符串组成,通常用于匹配和替换文本。正则表达式是处理字符串的强大工具,它有自己特定的语法结构,有了它,实现字符串的检索、替换、匹配验证都不在话下。对于爬虫,基于正则表达式,从HTML里提取想要的信息就非常方便了。
正则表达式有特定的语法规则的。写好正则表达式后,就可以拿它去一个长字符串里匹配查找了。不论这个字符串里面有什么,只要符合我们写的规则,统统可以找出来。对于网页来说,如果想找出网页源代码里有多少URL,用匹配URL的正则表达式去匹配即可。
在此推荐一个在线测试正则的网址:http://tool.oschina.net/regex/#供使用
下图就列出了正则表达式常用的匹配规则
正则表达式不是Python独有的,它可以用在其他编程语言中。在Python中,re库提供了整个正则表达式的实现,利用这个库,可以在Python中使用正则表达式。在Python中写正则表达式几乎都用这个库,下面就来了解它的一些常用方法。
re.match 尝试从字符串的首个字符开始匹配一个模式。
意思是:如果你要ABC,所查询的字符串前三位也要是ABC,有则成功,无则为None
re.match(pattern, string, flags=0)
函数参数说明
参数 | 描述 |
---|---|
pattern | 匹配的正则表达式 |
string | 要匹配的字符串 |
flags | 标志位,用于控制正则表达式的匹配方式,如:是否区分大小写,多行匹配等等 |
第一个匹配成功re.match方法返回一个匹配的对象,否则返回None。
#导包
import re
str = 'ABCDEFG ABCD ABCER'
pat = 'ABC'
res=re.match(pat,str)
print(res)
-----------------------------
匹配结果:
<_sre.SRE_Match object; span=(0, 3), match='ABC'>
#导包
import re
str = 'QWEABCDEFG ABCD ABCER'
pat = 'ABC'
res=re.match(pat,str)
print(res)
-----------------------------
匹配结果:
None
group()方法
#导包
import re
str = 'ABCDEFG ABCD ABCER'
pat = 'ABC'
res=re.match(pat,str)
print(res.group())
----------------------------
匹配结果:
ABC
re.search匹配整个字符串,直到找到一个匹配。
意思是:如果你要ABC,在所查询的字符串中存在ABC,则成功,不存在则为None
re.match(pattern, string, flags=0)
函数参数说明
参数 | 描述 |
---|---|
pattern | 匹配的正则表达式 |
string | 要匹配的字符串 |
flags | 标志位,用于控制正则表达式的匹配方式,如:是否区分大小写,多行匹配等等。 |
只要匹配成功re.match方法返回一个匹配的对象,否则返回None。
#导包
import re
str = 'QWE ABCDEFG ABCD ABCER'
pat = 'ABC'
ret=re.search(pat,str)
print(ret)
----------------------------
匹配结果:
<_sre.SRE_Match object; span=(4, 7), match='ABC'>
#导包
import re
str = 'QWE ABDEFG ABD ABER'
pat = 'ABC'
ret=re.search(pat,str)
print(ret)
----------------------------
匹配结果:
None
group()方法
#导包
import re
str = 'QWE ABCDEFG ABCD ABCER'
pat = 'ABC'
ret=re.search(pat,str)
print(ret.group())
----------------------------
匹配结果:
ABC
re.findall匹配整个字符串,找到所有匹配结果。
re.findall(pattern, string, flags=0)
函数参数说明
参数 | 描述 |
---|---|
pattern | 匹配的正则表达式 |
string | 要匹配的字符串 |
flags | 标志位,用于控制正则表达式的匹配方式,如:是否区分大小写,多行匹配等等。 |
返回string中所有与pattern相匹配的全部字串,返回形式为数组。
#导包
import re
str = 'QWE ABCDEFG BABCD ABCER'
pat = 'ABC'
rey=re.findall(pat,str)
print(rey)
----------------------------
匹配结果:
['ABC', 'ABC', 'ABC']
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。