当前位置:   article > 正文

re正则表达式的基本认识_re.search匹配整个字符串,直到找到一个匹配

re.search匹配整个字符串,直到找到一个匹配

正则表达式的定义及规则

正则表达式也叫做匹配模式(Pattern),它由一组具有特定含义的字符串组成,通常用于匹配和替换文本。正则表达式是处理字符串的强大工具,它有自己特定的语法结构,有了它,实现字符串的检索、替换、匹配验证都不在话下。对于爬虫,基于正则表达式,从HTML里提取想要的信息就非常方便了。

正则表达式有特定的语法规则的。写好正则表达式后,就可以拿它去一个长字符串里匹配查找了。不论这个字符串里面有什么,只要符合我们写的规则,统统可以找出来。对于网页来说,如果想找出网页源代码里有多少URL,用匹配URL的正则表达式去匹配即可。
在此推荐一个在线测试正则的网址:http://tool.oschina.net/regex/#供使用

下图就列出了正则表达式常用的匹配规则
在这里插入图片描述
正则表达式不是Python独有的,它可以用在其他编程语言中。在Python中,re库提供了整个正则表达式的实现,利用这个库,可以在Python中使用正则表达式。在Python中写正则表达式几乎都用这个库,下面就来了解它的一些常用方法。

正则常用的方法

match()函数

re.match 尝试从字符串的首个字符开始匹配一个模式。
意思是:如果你要ABC,所查询的字符串前三位也要是ABC,有则成功,无则为None

函数语法:

re.match(pattern, string, flags=0)
  • 1

函数参数说明

参数描述
pattern匹配的正则表达式
string要匹配的字符串
flags标志位,用于控制正则表达式的匹配方式,如:是否区分大小写,多行匹配等等

第一个匹配成功re.match方法返回一个匹配的对象,否则返回None。

#导包
import re

str = 'ABCDEFG ABCD ABCER'
pat = 'ABC'
res=re.match(pat,str)
print(res)
-----------------------------
匹配结果:
<_sre.SRE_Match object; span=(0, 3), match='ABC'>
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
#导包
import re

str = 'QWEABCDEFG ABCD ABCER'
pat = 'ABC'
res=re.match(pat,str)
print(res)
-----------------------------
匹配结果:
None
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10

group()方法

#导包
import re

str = 'ABCDEFG ABCD ABCER'
pat = 'ABC'
res=re.match(pat,str)
print(res.group())
----------------------------
匹配结果:
ABC
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10

search()函数

re.search匹配整个字符串,直到找到一个匹配。
意思是:如果你要ABC,在所查询的字符串中存在ABC,则成功,不存在则为None

函数语法:

re.match(pattern, string, flags=0)
  • 1

函数参数说明

参数描述
pattern匹配的正则表达式
string要匹配的字符串
flags标志位,用于控制正则表达式的匹配方式,如:是否区分大小写,多行匹配等等。

只要匹配成功re.match方法返回一个匹配的对象,否则返回None。

#导包
import re

str = 'QWE ABCDEFG ABCD ABCER'
pat = 'ABC'
ret=re.search(pat,str)
print(ret)

----------------------------
匹配结果:
<_sre.SRE_Match object; span=(4, 7), match='ABC'>
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
#导包
import re

str = 'QWE ABDEFG ABD ABER'
pat = 'ABC'
ret=re.search(pat,str)
print(ret)

----------------------------
匹配结果:
None
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11

group()方法

#导包
import re

str = 'QWE ABCDEFG ABCD ABCER'
pat = 'ABC'
ret=re.search(pat,str)
print(ret.group())

----------------------------
匹配结果:
ABC
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11

findall()函数

re.findall匹配整个字符串,找到所有匹配结果。

函数语法:

re.findall(pattern, string, flags=0)
  • 1

函数参数说明

参数描述
pattern匹配的正则表达式
string要匹配的字符串
flags标志位,用于控制正则表达式的匹配方式,如:是否区分大小写,多行匹配等等。

返回string中所有与pattern相匹配的全部字串,返回形式为数组。

#导包
import re

str = 'QWE ABCDEFG  BABCD ABCER'
pat = 'ABC'
rey=re.findall(pat,str)
print(rey)
----------------------------
匹配结果:
['ABC', 'ABC', 'ABC']
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10

sub()函数

compile()函数

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/Gausst松鼠会/article/detail/113659?site
推荐阅读
相关标签
  

闽ICP备14008679号