当前位置:   article > 正文

python-re模块(正则表达式)_python regexp

python regexp

正则表达式,又称规则表达式,(Regular Expression,在代码中常简写为regex、regexp或RE),是一种文本模式,包括普通字符(例如,a 到 z 之间的字母)和特殊字符(称为"元字符"),是计算机科学的一个概念。正则表达式使用单个字符串来描述、匹配一系列匹配某个句法规则的字符串,通常被用来检索、替换那些符合某个模式(规则)的文本。

        本篇文章更多的是记录一些知识点。是在知道正则表达式,会使用re模块的前提下进行编写。

目录

功能标志

元字符

修饰符

字符集[]

高级语法(非贪婪、先行后行断言、命名组及条件匹配)

非标记组(?:expr)

贪婪/非贪婪模式

正向先行断言(?=expr)

负向先行断言(?!expr)

命名组

re模块

compile函数

1、compile()与findall()一起使用,返回一个列表。

2、compile()与match()一起使用,可返回一个class、str、tuple,dict。

3、compile()与search()搭配使用

4、隐藏的 compile 函数

re中的正则匹配函数

1、match()函数(以后常用)

2、search()函数

3、findall()函数

4、split()函数

5、 sub()函数

6、subn()函数

Scanner类


功能标志

标志缩写说明
ASCIIA仅执行8位的ASCII码字符匹配
IGNORECASEI匹配不区分大小写
DEBUG输出调试信息
MULTILINEM多行模式,使用热数字夫^和$匹配行首和行尾以及字符串的开头和结尾
DOTALL使用点运算符(.)匹配所有字符,包括行尾符(\n) 
UNICODEU使用UNICODE格式匹配字母数字字符、单词边界和数字
VERBOSEV冗长模式,可以在正则表达式中添加注释,忽略空白字符等。

以IGNORECASE为例介绍使用方法:

  1. # 正则表达式,匹配任意个小写字母
  2. regx = "[a-z]*"
  3. # 开头是大写字母的单词
  4. s1 = "Vencent"
  5. # 使用IGNORECASE标志后,忽略了字母大小写,匹配成功
  6. re.match(regx, s1, re.IGNORECASE)[0] # <re.Match object; span=(0, 7), match='Vencent'>
  7. # 不使用IGNORECASE标志,匹配失败
  8. re.match(regx, s1)[0] # <re.Match object; span=(0, 0), match=''>

元字符

特殊字符说明
.点运算符,匹配除换行符以外的任何一个字符。如果启用DOTALL标志,将匹配任何字符
^插入符号,匹配字符串的开始。如果启用MULTILINE标志,则它也匹配换行符后的任意字符。(在字符集里[^a]表示非,不匹配)
$匹配字符串的结尾,如果启用MULTILINE标志,则它也匹配换行符或末尾的最后一个字符
\A匹配字符串的开头

\b

匹配单词的边界,如r“De\b"匹配"De asfa",但不匹配"Deasfa"
\B匹配非单词边界,与\b相反的含义
\d匹配任何数字字符(0-9)。如果设置了UNICODE标志,还包括归类为数字的Unicode字符。
\D匹配任何非数字的字符
\s匹配任何空白字符,可以是空格或这几个转义字符(\t、\n、\r、\f、\v)。
\S匹配\s中定义的空白字符意外的任何字符
\w匹配任何字母、数字或下划线。
\W匹配\w中定义的字符外的任何字符
\z匹配字符串的结尾

示例:

  1. # 正则表达式,匹配全部是数字的字符串
  2. regx = r"^\d*$"
  3. d1 = "12345"
  4. d2= "123s765"
  5. # d1匹配成功
  6. re.match(regx, d1) # <re.Match object; span=(0, 5), match='12345'>
  7. # d2匹配失败
  8. re.match(regx, d2) # None

修饰符

修饰符说明
*重复零次或更多次
+重复1次或多次
重复0次或1次
|或匹配
{n}重复n次
{m,n}重复m-n次
{m,}至少重复m次,没有上限
{,n}重复0-n次
()将()中的表达式视为一个组(子表达式)。如(asd)+可以匹配"asd"、"asdasdasd"
\数字指前面已经匹配到的内容(实际找到的内容,而非表达式)。\1表示第一组找到的文本,\2表示第二组...

示例:

  1. # |的方法
  2. re.match(r"abc|edf", "edf") # <re.Match object; span=(0, 3), match='edf'>
  3. # {m,n}的用法
  4. re.match(r"\d{1,5}", "12345678") # <re.Match object; span=(0, 5), match='12345'>
  5. # ()的用法
  6. re.match(r"(asd)+", "asdasdasd") # <re.Match object; span=(0, 9), match='asdasdasd'>
  7. # \数字的用法,下面示例是指遇到第一个重复的数字就停止,用到了非贪婪模式,后面介绍
  8. re.match(r"(\d).*?\1", "123412341234") # <re.Match object; span=(0, 5), match='12341'>

字符集[]

[char_set]  表示匹配字符集中的任意一个字符

  1. # 正则表达式,两个s之间可以是abcd中的任意字符
  2. regx = r"s[abcd]s"
  3. s1 = "sas"
  4. s2 = "scs"
  5. s3 = "ses"
  6. re.match(regx, s1) # <re.Match object; span=(0, 3), match='sas'>
  7. re.match(regx, s2) # <re.Match object; span=(0, 3), match='scs'>
  8. re.match(regx, s3) # None

[^char_set] 表示匹配不在字符集中的任意一个字符(^在开头时)

  1. # 正则表达式,两个s之间不能是abcd中的任意字符
  2. regx = r"s[^abcd]s"
  3. s1 = "sas"
  4. s2 = "scs"
  5. s3 = "ses"
  6. re.match(regx, s1) # None
  7. re.match(regx, s2) # None
  8. re.match(regx, s3) # <re.Match object; span=(0, 3), match='ses'>

字符在 [] 中,并且只能出现一次,并且特殊字符写在 [] 会被当成普通字符来匹配。

  1. # []中的特殊字符被当作普通字符识别
  2. re.match(r".*[*+^$-]", "dsgg352t*35931y5") # <re.Match object; span=(0, 9), match='dsgg352t*'>

负号-如果出现在两个字符之间,则表示两个字符范围内的字符,否则负号-视为普通字符(如上一条示例)。[a-zA-Z0-9]表示任何大小写字母或数组。

  1. regx = r"[a-zA-Z0-9]"
  2. re.match(regx, "1") # <re.Match object; span=(0, 1), match='1'>
  3. re.match(regx, "F") # <re.Match object; span=(0, 1), match='F'>
  4. re.match(regx, "g") # <re.Match object; span=(0, 1), match='g'>

匹配多个字符或表达式的时候,可以用()

  1. # 匹配Tom或Lily或Vencent或\d{3}
  2. regx = r"(Tom|Lily|Vencent|\d{3})"
  3. re.match(regx, "Tom is boy") # <re.Match object; span=(0, 3), match='Tom'>
  4. re.match(regx, "Lily is girl") # <re.Match object; span=(0, 4), match='Lily'>
  5. re.match(regx, "Vencent is toy") # <re.Match object; span=(0, 7), match='Vencent'>
  6. re.match(regx, "123455678") # <re.Match object; span=(0, 3), match='123'>

高级语法(非贪婪、先行后行断言、命名组及条件匹配)

语法(expr是表达式)说明
(?:expr)

非标记组。将expr视为一个单元,但不在运行时标记匹配到的字符。该表达式只用于字符匹配,而不会记录匹配到的字符。相应的(expr)表示标记组

expr???运算符的非贪婪模式
expr*?*运算符的非贪婪模式
expr+?+运算符的非贪婪模式
expr{m,n}?{m,n}运算符的非贪婪模式
(?=expr)正向先行断言。如果expr与当前位置之后的字符串匹配,则表达式整体匹配成功;否则,表达式匹配失败。与言行断言匹配的字符不会被消除或标记,它们被视为尚未读取,这意味这下一个正则表达式操作可以再次读取它们
(?!expr)负向先行断言。如果expr与当前位置之后的字符串不匹配,则表达式整体匹配成功;这些字符既不会被消除,也不被标记,因此它们仍将被下一个正则表达式匹配或搜索操作读取
(?<=expr)

正向后行断言。如果当前位置之前的字符可以匹配expr,则表达式整体匹配成功。这里的expri必须为固定长度。该模式的意思是,重新读取已经处理过的字符,且以这种方式重新读取的字符不会被标记。

例如,给定表达式(?<=abd)def,字符串abcdef中的def可以被匹配,但是abc并不是匹配对象的一部分。该模式的意思是,仅当abc在def之前时匹配def

(?<!expr)负向后行断言。如果当前位置之前的字符不能匹配expr,则表达式整体匹配成功。这里的expr必须为固定长度。该模式的意思是,重新读取已经处理过的字符,且以这种方式被重新读取的字符不会被标记
(?P<name>expr)命名组。如果expr匹配,则整体表达式匹配成功。匹配成功的字符串会被标记,并被赋予一个名称,在其他表达式中可以使用名称引用它们
(?P=name)匹配命名组。如果字符串与之前匹配成功的命名组相同,则此表达式匹配成功。
(#text)注释。该字段可以出现在正则表达式中,但是会被正则表达式程序忽略

(?(name)yespat|nopat)

(?(name)yespat)

(?(id)yespat|nopat)

(?(id)yespat)

条件匹配。如果命名组先前已经出现并成功匹配,则此表达式将尝试匹配yespat;否则,它将尝试匹配nopat。id是标记组的序号

下面是每种语法的示例

  • 非标记组(?:expr)

  1. # 非标记组(?:expr)
  2. regx1 = r"\d{1,3}(?:,\d{3})*(?:\.\d*)?\b"
  3. s1 = "12,000 monkeys on 100 typewriters for 53.12 days"
  4. lst1 = re.findall(regx1, s1)
  5. for item in lst1:
  6. print(item)
  7. '''
  8. 12,000
  9. 100
  10. 53.12
  11. '''
  12. ##########################################################################
  13. # 标记组(expr)
  14. regx2 = r"\d{1,3}(,\d{3})*(\.\d*)?\b"
  15. s1 = "12,000 monkeys on 100 typewriters for 53.12 days"
  16. lst2 = re.findall(regx2, s1)
  17. for item in lst2:
  18. print(item)
  19. '''
  20. (',000', '')
  21. ('', '')
  22. ('', '.12')
  23. '''

贪婪/非贪婪模式

  1. # 贪婪模式
  2. regx1 = r"<.*>"
  3. s1 = "<h1>This is an HTML heading.</h1>"
  4. re.match(regx1, s1) # <re.Match object; span=(0, 33), match='<h1>This is an HTML heading.</h1>'>
  5. # 非贪婪模式
  6. regx2 = r"<.*?>"
  7. re.match(regx2, s1) # <re.Match object; span=(0, 4), match='<h1>'>

正向先行断言(?=expr)

  1. # 正向先行断言(?=expr)
  2. regx = r"[A-Z].*?[.!?](?= [A-Z]|$)"
  3. s1 = '''I am M.X.B. Today is a nice day. But I need study. I
  4. will go out after 1 hour!'''
  5. lt = re.findall(regx, s1, re.DOTALL|re.MULTILINE)
  6. for item in lt:
  7. print("->", item)
  8. '''
  9. -> I am M.X.B.
  10. -> Today is a nice day.
  11. -> But I need study.
  12. -> I
  13. will go out after 1 hour!
  14. '''
  15. # 这里是用于判断英文句子的正则表达式
  16. # [A-X]表示开头大写字母
  17. # .*?表示匹配任意数量字符(非贪婪模式)
  18. # [.!?]表示.或!或?,用于标志句子结尾
  19. # (?= [A-Z]|$)是先行断言判断条件,如果不满足则表示并不是完整句子
  20. # re.DOTALL表示.可以表示换行符
  21. # re.MULTILINE表示$可以表示换行符和结尾符号

负向先行断言(?!expr)

  1. # 负向先行断言(?!expr)
  2. regx = r"\d(?!-)"
  3. s1 = "1-2-3-4-5-6sa21r5"
  4. re.findall(regx, s1) # ['6', '2', '1', '5']
  5. # 这里是匹配数字且数字后面不跟负号-
  6. # \d表示匹配一个数字
  7. # (?!-)表示\d匹配到的数字后面不能跟负号-

(?<=expr)和(?=expr)功能类似,只是往前匹配。

(?<!expr)和(?!expr)也是功能类似,只是往前匹配。

命名组

  1. #(?P<name>expr) 使用名称标记匹配的组
  2. #(?P=name) 尝试再次匹配该命名组
  3. regx = "Name=(?P<name>[a-zA-Z]*)(?=\W).*?Age=(?P<age>\d*)(?=\W).*City=(?P<city>[a-zA-Z]*)(?=\W).*(?P=name) is (?P<gender>man|woman|boy|gril)"
  4. s1 = '''Name=Max
  5. Age=34
  6. City=NanJing
  7. Lily is woman
  8. Lucy is gril
  9. Tom is boy
  10. Max is man'''
  11. lt = re.match(regx, s1, re.DOTALL)
  12. matchs = re.match(regx, s1, re.DOTALL)
  13. print(matchs.group("name")) # Max
  14. print(matchs.group("age")) # 34
  15. print(matchs.group("city")) # NanJing
  16. print(matchs.group("gender")) # man
  17. print(matchs.group(1)) # Max
  18. print(matchs.group(2)) # 34
  19. print(matchs.group(3)) # NanJing
  20. print(matchs.group(4)) # man
  21. # (?P<name>[a-zA-Z]*)(?=\W) 获取名字
  22. # (?P<age>\d*)(?=\W) 获取年龄
  23. # (?P<city>[a-zA-Z]*)(?=\W) 获取城市
  24. # (?P=name) 匹配姓名,以区分多个姓名
  25. # (?P<gender>man|woman|boy|gril) 获取性别

re模块

compile函数

compile 函数用于编译正则表达式,生成一个 Pattern 对象,它的一般使用形式如下:

  1. re.compile(pattern,flag=0)
  2. '''
  3. pattern: 正则模型
  4. falgs : 匹配模式,比如忽略大小写,多行模式等
  5. 返回值: Pattern 对象
  6. '''
  7. import re
  8. # 将正则表达式编译成 Pattern 对象
  9. pattern = re.compile(r'\d+')

1、compile()与findall()一起使用,返回一个列表。

  1. import re
  2. def main():
  3. content = 'Hello, I am Jerry, from Chongqing, a montain city, nice to meet you……'
  4. regex = re.compile('\w*o\w*')
  5. x = regex.findall(content)
  6. print(x)
  7. if __name__ == '__main__':
  8. main()
  9. # ['Hello', 'from', 'Chongqing', 'montain', 'to', 'you']

2、compile()与match()一起使用,可返回一个class、str、tuple,dict。

compile()与match()一起使用,可返回一个class、str、tuple,dict。 但是一定需要注意match(),从位置0开始匹配,匹配不到会返回None,返回None的时候就没有span/group属性了,并且与group使用,返回一个单词‘Hello’后匹配就会结束。

  1. import re
  2. def main():
  3. content = 'Hello, I am Jerry, from Chongqing, a montain city, nice to meet you……'
  4. regex = re.compile('\w*o\w*')
  5. y = regex.match(content)
  6. print(y)
  7. print(type(y))
  8. print(y.group())
  9. print(y.span())
  10. print(y.groupdict())
  11. if __name__ == '__main__':
  12. main()
  13. # <_sre.SRE_Match object; span=(0, 5), match='Hello'>
  14. # <class '_sre.SRE_Match'>
  15. # Hello
  16. # (0, 5)
  17. # {}

3、compile()与search()搭配使用

compile()与search()搭配使用, 返回的类型与match()差不多, 但是不同的是search(), 可以不从位置0开始匹配。但是匹配一个单词之后,匹配和match()一样,匹配就会结束。

  1. import re
  2. def main():
  3. content = 'Hello, I am Jerry, from Chongqing, a montain city, nice to meet you……'
  4. regex = re.compile('\w*o\w*')
  5. z = regex.search(content)
  6. print(z)
  7. print(type(z))
  8. print(z.group())
  9. print(z.span())
  10. print(z.groupdict())
  11. if __name__ == '__main__':
  12. main()
  13. # <_sre.SRE_Match object; span=(0, 5), match='Hello'>
  14. # <class '_sre.SRE_Match'>
  15. # Hello
  16. # (0, 5)
  17. # {}

4、隐藏的 compile 函数

正常情况下 我们使用re模块时,我们都是先调用re模块的complie函数生成成pattern对象,使用pattern对象调用相应的方法进行正则匹配。一般代码写成下面的样子。

  1. import re
  2. pattern = re.compile('正则表达式')
  3. text = '一段字符串'
  4. result = pattern.findall(text)

但是在Python里面,在大多数情况下真的不需要使用re.compile!,直接使用re.对应的方法(pattern, string, flags=0)就可以了其原因就是热模块将complie函数的调用放在了对应的方法(pattern, string, flags=0)中了。我们常用的正则表达式方法,无论是findall还是search还是sub还是match,其返回值全部都是这样写的:

_compile(pattern, flag).对应的方法(string)

查看源码:

  1. def findall(pattern, string, flags=0):
  2. """Return a list of all non-overlapping matches in the string.
  3. If one or more capturing groups are present in the pattern, return
  4. a list of groups; this will be a list of tuples if the pattern
  5. has more than one group.
  6. Empty matches are included in the result."""
  7. return _compile(pattern, flags).findall(string)

果然是这个样子。实际上我们常用的正则表达式方法,都已经自带了compile了!
一般情况下不需要先使用re.compile再调用正则表达式方法。
再看一下re.compile源码

  1. def compile(pattern, flags=0):
  2. "Compile a regular expression pattern, returning a Pattern object."
  3. return _compile(pattern, flags)

也是调用 _compile(pattern, flags)返回pattern对象。

如果我有一百万条字符串,使用某一个正则表达式去匹配,那么我可以这样写代码:

  1. texts = [包含一百万个字符串的列表]
  2. pattern = re.compile('正则表达式')
  3. for text in texts:
  4. pattern.search(text)

这个时候,re.compile只执行了1次,而如果你像下面这样写代码:

  1. texts = [包含一百万个字符串的列表]
  2. for text in texts:
  3. re.search('正则表达式', text)

相当于你在底层对同一个正则表达式执行了100万次re.compile。是不是这样子呢?答案是:不是,

红框中的代码,说明了 _compile自带缓存。它会自动储存最多512条由type(pattern), pattern, flags)组成的Key,只要是同一个正则表达式,同一个flag,那么调用两次_compile时,第二次会直接读取缓存。
综上所述,再大多数情况下不需要手动调用re.compile,除非你的项目涉及到几百万以上的正则表达式查询。

re中的正则匹配函数

1、match()函数(以后常用)

match,从开头匹配一个符合规则的字符串,从起始位置开始匹配,匹配成功返回一个对象,未匹配成功返回None。如果匹配的字符不是在开头处,那么它将会报错,匹配成功返回结果,没有返回None。

  1. match(pattern, string, flags=0)
  2. # pattern: 正则模型
  3. # string : 要匹配的字符串
  4. # falgs : 匹配模式
  5. import re
  6. str="hello egon bcd egon lge egon acd 19"
  7. r=re.match("h\w+",str) #match,从起始位置开始匹配,匹配成功返回一个对象,未匹配成功返回None,非字母,汉字,数字及下划线分割
  8. print(r.group()) # 获取匹配到的所有结果,不管有没有分组将匹配到的全部拿出来
  9. print(r.groups()) # 获取模型中匹配到的分组结果,只拿出匹配到的字符串中分组部分的结果
  10. print(r.groupdict()) # 获取模型中匹配到的分组结果,只拿出匹配到的字符串中分组部分定义了key的组结果
  11. # hello
  12. # ()
  13. # {}
  14. r2=re.match("h(\w+)",str) #match,从起始位置开始匹配,匹配成功返回一个对象,未匹配成功返回None
  15. print(r2.group())
  16. print(r2.groups())
  17. print(r2.groupdict())
  18. # hello
  19. # ('ello',)
  20. # {}
  21. r3=re.match("(?P<n1>h)(?P<n2>\w+)",str) #?P<>定义组里匹配内容的key(键),<>里面写key名称,值就是匹配到的内容
  22. print(r3.group())
  23. print(r3.groups())
  24. print(r3.groupdict())
  25. # hello
  26. # ('h', 'ello')
  27. # {'n1': 'h', 'n2': 'ello'}

2、search()函数

search:浏览全部字符串,匹配第一符合规则的字符串,浏览整个字符串去匹配第一个,未匹配成功返回None

  1. search(pattern, string, flags=0)
  2. # pattern: 正则模型
  3. # string : 要匹配的字符串
  4. # flags : 匹配模式

注意:match()函数 与 search()函数基本是一样的功能,不一样的就是match()匹配字符串开始位置的一个符合规则的字符串,search()是在字符串全局匹配第一个合规则的字符串

  1. import re
  2. str="hello egon bcd egon lge egon acd 19"
  3. r=re.search("h\w+",str) #match,从起始位置开始匹配,匹配成功返回一个对象,未匹配成功返回None,非字母,汉字,数字及下划线分割
  4. print(r.group()) # 获取匹配到的所有结果,不管有没有分组将匹配到的全部拿出来
  5. print(r.groups()) # 获取模型中匹配到的分组结果,只拿出匹配到的字符串中分组部分的结果
  6. print(r.groupdict()) # 获取模型中匹配到的分组结果,只拿出匹配到的字符串中分组部分定义了key的组结果
  7. # hello
  8. # ()
  9. # {}
  10. r2=re.search("h(\w+)",str) #match,从起始位置开始匹配,匹配成功返回一个对象,未匹配成功返回None
  11. print(r2.group())
  12. print(r2.groups())
  13. print(r2.groupdict())
  14. # hello
  15. # ('ello',)
  16. # {}
  17. r3=re.search("(?P<n1>h)(?P<n2>\w+)",str) #?P<>定义组里匹配内容的key(键),<>里面写key名称,值就是匹配到的内容
  18. print(r3.group())
  19. print(r3.groups())
  20. print(r3.groupdict())
  21. # hello
  22. # ('h', 'ello')
  23. # {'n1': 'h', 'n2': 'ello'}

3、findall()函数

浏览全部字符串,匹配所有合规则的字符串,匹配到的字符串放到一个列表中,未匹配成功返回空列表

  1. findall(pattern, string, flags=0)
  2. # pattern: 正则模型
  3. # string : 要匹配的字符串
  4. # flags : 匹配模式

注意: 一旦匹配成,再次匹配,是从前一次匹配成功的,后面一位开始的,也可以理解为匹配成功的字符串,不在参与下次匹配

  1. '''
  2. 注意: 一旦匹配成,再次匹配,是从前一次匹配成功的,后面一位开始的,也可以理解为匹配成功的字符串,不在参与下次匹配
  3. '''
  4. import re
  5. r=re.findall("\d+\w\d+","a2b3c4d5") #浏览全部字符串,匹配所有合规则的字符串,匹配到的字符串方到一个列表中
  6. print(r)
  7. # ['2b3', '4d5'] #匹配成功的字符串,不再参与下次匹配,所以3c4也符合规则但是没有匹配到

注意:正则匹配到空字符的情况,如果规则里只有一个组,而组后面是就表示组里的内容可以是0个或者多过,这样组里就有了两个意思,一个意思是匹配组里的内容,二个意思是匹配组里0内容(即是空白)所以尽量避免用否则会有可能匹配出空字符串
注意:正则只拿组里最后一位,如果规则里只有一个组,匹配到的字符串里在拿组内容是,拿的是匹配到的内容最后一位

  1. '''
  2. 注意:正则匹配到空字符的情况,如果规则里只有一个组,而组后面是*就表示组里的内容可以是0个或者多过,这样组里就有了两个意思,一个意思是匹配组里的内容,二个意思是匹配组里0内容(即是空白)所以尽量避免用*否则会有可能匹配出空字符串
  3. 注意:正则只拿组里最后一位,如果规则里只有一个组,匹配到的字符串里在拿组内容是,拿的是匹配到的内容最后一位
  4. '''
  5. import re
  6. r=re.findall("(ca)*","ca2b3caa4d5") #浏览全部字符串,匹配所有合规则的字符串,匹配到的字符串方到一个列表中
  7. print(r)
  8. # ['ca', '', '', '', 'ca', '', '', '', '', '']#用*号会匹配出空字符

无分组:匹配所有合规则的字符串,匹配到的字符串放到一个列表中

  1. '''
  2. 注意:正则匹配到空字符的情况,如果规则里只有一个组,而组后面是*就表示组里的内容可以是0个或者多过,这样组里就有了两个意思,一个意思是匹配组里的内容,二个意思是匹配组里0内容(即是空白)所以尽量避免用*否则会有可能匹配出空字符串
  3. 注意:正则只拿组里最后一位,如果规则里只有一个组,匹配到的字符串里在拿组内容是,拿的是匹配到的内容最后一位
  4. '''
  5. import re
  6. r=re.findall("(ca)*","ca2b3caa4d5") #浏览全部字符串,匹配所有合规则的字符串,匹配到的字符串方到一个列表中
  7. print(r)
  8. # ['ca', '', '', '', 'ca', '', '', '', '', '']#用*号会匹配出空字符

无分组:匹配所有合规则的字符串,匹配到的字符串放到一个列表中

  1. '''
  2. 无分组:匹配所有合规则的字符串,匹配到的字符串放到一个列表中
  3. '''
  4. import re
  5. r=re.findall("a\w+","ca2b3 caa4d5") #浏览全部字符串,匹配所有合规则的字符串,匹配到的字符串方到一个列表中
  6. print(r)
  7. # ['a2b3', 'aa4d5']#匹配所有合规则的字符串,匹配到的字符串放入列表

多个分组:只将匹配到的字符串里,组的部分放到一个元组中,最后将所有元组放到一个列表里返
相当于在group()结果里再将组的部分,分别,拿出来放入一个元组,最后将所有元组放入一个列表返回

  1. '''
  2. 多个分组:只将匹配到的字符串里,组的部分放到一个元组中,最后将所有元组放到一个列表里返
  3. 相当于在group()结果里再将组的部分,分别,拿出来放入一个元组,最后将所有元组放入一个列表返回
  4. '''
  5. import re
  6. r=re.findall("(a)(\w+)","ca2b3 caa4d5") #有多分组:只将匹配到的字符串里,组的部分放到一个元组中,最后将所有元组放到一个列表里返回
  7. print(r)
  8. # [('a', '2b3'), ('a', 'a4d5')]#返回的是多维数组

分组中有分组:只将匹配到的字符串里,组的部分放到一个元组中,先将包含有组的组,看作一个整体也就是一个组,把这个整体组放入一个元组里,然后在把组里的组放入一个元组,最后将所有组放入一个列表返回

  1. '''
  2. 分组中有分组:只将匹配到的字符串里,组的部分放到一个元组中,先将包含有组的组,看作一个整体也就是一个组,把这个整体组放入一个元组里,然后在把组里的组放入一个元组,最后将所有组放入一个列表返回
  3. '''
  4. import re
  5. r=re.findall("(a)(\w+(b))","ca2b3 caa4b5") #分组中有分组:只将匹配到的字符串里,组的部分放到一个元组中,先将包含有组的组,看作一个整体也就是一个组,把这个整体组放入一个元组里,然后在把组里的组放入一个元组,最后将所有组放入一个列表返回
  6. print(r)
  7. # [('a', '2b', 'b'), ('a', 'a4b', 'b')]#返回的是多维数组

?:在有分组的情况下findall()函数,不只拿分组里的字符串,拿所有匹配到的字符串,注意?:只用于不是返回正则对象的函数如findall()

  1. '''
  2. ?:在有分组的情况下findall()函数,不只拿分组里的字符串,拿所有匹配到的字符串,注意?:只用于不是返回正则对象的函数如findall()
  3. '''
  4. import re
  5. r=re.findall("a(?:\w+)","a2b3 a4b5 edd") #?:在有分组的情况下,不只拿分组里的字符串,拿所有匹配到的字符串,注意?:只用于不是返回正则对象的函数如findall()
  6. print(r)
  7. # ['a2b3', 'a4b5']

4、split()函数

根据正则匹配分割字符串,返回分割后的一个列表

  1. split(pattern, string, maxsplit=0, flags=0)
  2. # pattern: 正则模型
  3. # string : 要匹配的字符串
  4. # maxsplit:指定分割个数
  5. # flags : 匹配模式
  6. import re
  7. r=re.split("a\w","sdfadfdfadsfsfafsff")
  8. print(r)
  9. r2=re.split("a\w","sdfadfdfadsfsfafsff",maxsplit=2)
  10. print(r2)
  11. # ['sdf', 'fdf', 'sfsf', 'sff']
  12. # ['sdf', 'fdf', 'sfsfafsff']

5、 sub()函数

替换匹配成功的指定位置字符串

  1. sub(pattern, repl, string, count=0, flags=0)
  2. # pattern: 正则模型
  3. # repl : 要替换的字符串
  4. # string : 要匹配的字符串
  5. # count : 指定匹配个数
  6. # flags : 匹配模式
  7. import re
  8. r=re.sub("a\w","替换","sdfadfdfadsfsfafsff")
  9. print(r)
  10. # sdf替换fdf替换sfsf替换sff

6、subn()函数

替换匹配成功的指定位置字符串,并且返回替换次数,可以用两个变量分别接受

  1. subn(pattern, repl, string, count=0, flags=0)
  2. # pattern: 正则模型
  3. # repl : 要替换的字符串
  4. # string : 要匹配的字符串
  5. # count : 指定匹配个数
  6. # flags : 匹配模式
  7. import re
  8. a,b=re.subn("a\w","替换","sdfadfdfadsfsfafsff") #替换匹配成功的指定位置字符串,并且返回替换次数,可以用两个变量分别接受
  9. print(a) #返回替换后的字符串
  10. print(b) #返回替换次数
  11. # sdf替换fdf替换sfsf替换sff
  12. # 3

Scanner类

re模块提供了Scanner用于高效地匹配多个正则表达式,并对匹配的字符串进行处理。这里记录下使用方法和示例。

  1. '''
  2. # 定义扫描器和处理函数(处理函数可以单独定义也可以使用lambda)
  3. scanner_name = re.Scanner([
  4. (tok_pattern1, funct1),
  5. (tok_pattern2, funct2),
  6. ...
  7. )]
  8. # 调用scan函数进行扫描
  9. scanner_name.scan(string)
  10. '''
  11. # 定义处理函数,<scanner>是对扫描器对象的引用,<tok_str>是对匹配到的字符串的引用
  12. def sc_int(scanner, tok_str):
  13. return int(tok_str)
  14. # 定义扫描器,这里分别用了定义函数和lambda
  15. scanner = re.Scanner([
  16. (r"\d+\.\d*", lambda scanner, tok_str: float(tok_str)),
  17. (r"\d+", sc_int),
  18. (r"\s+", None)
  19. ])
  20. # 调用scan函数进行扫描
  21. scanner.scan("1 532 5.125 1245 sdgs 123 2wq") # ([1, 532, 5.125, 1245], 'sdgs 123 2wq')
  22. # 返回值是有2个元素的元组
  23. # 一个是包含所有搜索结果的列表
  24. # 另一个是包含未成功匹配的文本字符串

参考资料

python中的re模块_顺其自然~的博客-CSDN博客

《高阶Pyhon代码精进之路》

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/菜鸟追梦旅行/article/detail/172220?site
推荐阅读
相关标签
  

闽ICP备14008679号