编辑这个页面须要登录或更高权限！

您刚才的请求只有这个用户组的用户才能使用：自动确认用户
如果您还没有登录请登录后重试。编程那点事是一个开放式网站，修改本站大部分内容仅须要花10秒钟时间创建一个账户。如果您已经登录，本页面可能是受保护的内容。如果您认为有修改的必要，请联系本站管理人员。
该页面已被锁定以防止编辑。

Python 正则表达式(RegEx)

在本教程中，您将学习正则表达式（RegEx），并使用Python的re模块与RegEx一起使用（在示例的帮助下）。

正则表达式（RegEx）是定义搜索模式的字符序列。例如，

^a...s$

上面的代码定义了RegEx模式。模式是：以a开头并以s结尾的任何五个字母字符串。

使用RegEx定义的模式可用于与字符串匹配。

表达式	字符串	匹配？
^a...s$	abs	没有匹配
	alias	匹配
	abyss	匹配
	Alias	没有匹配
	An abacus	没有匹配

Python有一个名为reRegEx 的模块。这是一个示例：

import re

pattern = '^a...s$'
test_string = 'abyss'
result = re.match(pattern, test_string)

if result:
  print("查找成功.")
else:
  print("查找不成功.")

这里，我们使用re.match()函数来搜索测试字符串中的模式。如果搜索成功，该方法将返回一个匹配对象。如果没有，则返回None。

re模块中定义了其他一些函数，可与RegEx一起使用。在探讨之前，让我们学习正则表达式本身。

如果您已经了解RegEx的基础知识，请跳至Python RegEx。

使用正则表达式指定模式

为了指定正则表达式，使用了元字符。在上面的示例中，^和$是元字符。

元字符

元字符是RegEx引擎以特殊方式解释的字符。以下是元字符列表：

[] . ^ $ * + ? {} () \ |

[] - 方括号

方括号指定您要匹配的一组字符。

表达式	字符串	匹配？
[abc]	a	1个匹配
	ac	2个匹配
	Hey Jude	没有匹配
	abc de ca	5个匹配

在这里，[abc]将匹配，如果你想匹配字符串中包含任何的a，b或c。

您也可以使用-方括号内的字符范围。

[a-e]与相同[abcde]。
[1-4]与相同[1234]。
[0-39]与相同[01239]。

您可以通过^在方括号的开头使用插入符号来补充（反转）字符集。

[^abc]表示除a或b或c之外的任何字符。
[^0-9] 表示任何非数字字符。

.- 句点

句点匹配任何单个字符（换行符除外'\n'）。

表达式	字符串	匹配？
..	a	没有匹配
	ac	1个匹配
	acd	1个匹配
	acde	2个匹配项（包含4个字符）

^- 插入符号

插入符号^用于检查字符串是否以某个字符开头。

表达式	字符串	匹配？
^a	a	1个匹配
	abc	1个匹配
	bac	没有匹配
^ab	abc	1个匹配
^ab	acb	没有匹配项（以开头，a但之后没有b）

$- 美元

美元符号$用于检查字符串是否以某个特定字符结尾。

表达式	字符串	匹配？
a$	a	1个匹配
	formula	1个匹配
	cab	没有匹配

*- 星号

星号符号*匹配零个或多个剩余的模式。

表达式	字符串	匹配？
ma*n	mn	1个匹配
	man	1个匹配
	maaan	1个匹配
	main	没有匹配项（a后面没有n）
	woman	1个匹配

+- 加号

加号会+匹配一个或多个剩余的模式。

表达式	字符串	匹配？
ma+n	mn	没有匹配项（没有a字符）
	man	1个匹配
	maaan	1个匹配
	main	没有匹配项（a后跟n）
	woman	1个匹配

?- 问号

问号符号会?匹配零或一出现的剩余模式。

表达式	字符串	匹配？
ma?n	mn	1个匹配
	man	1个匹配
	maaan	没有匹配项（超过一个a字符）
	main	没有匹配项（a后跟n）
	woman	1个匹配

{}- 大括号

考虑以下代码：{n,m}。这意味着至少要保留n个样式，并且最多重复m个样式。

表达式	字符串	匹配？
a{2,3}	abc dat	没有匹配
	abc daat	1个匹配（在）daat
	aabc daaat	2个匹配项（位于aabc和）daaat
	aabc daaaat	2个匹配项（位于aabc和）daaaat

让我们再尝试一个示例。RegEx [0-9]{2, 4}匹配至少2位但不超过4位

表达式	字符串	匹配？
[0-9]{2,4}	ab123csde	1个匹配（在处匹配）ab123csde
	12 and 345673	2个匹配项（位于）12 and 345673
	1 and 2	没有匹配

|- 竖线

竖线|用于交替显示（or运算符）。

表达式	字符串	匹配？
a\|b	cde	没有匹配
	ade	1个匹配（在处匹配ade）
	acdbea	3个匹配项（位于）acdbea

在这里，a|b匹配任何包含a或b的字符串

()- 括号

括号()用于对子模式进行分组。例如，(a|b|c)xz匹配任何与a或b或c匹配且后跟xz的字符串

表达式	字符串	匹配？
(a\|b\|c)xz	ab xz	没有匹配
	abxz	1个匹配（在处匹配）abxz
	axz cabxz	2个匹配项（位于）axzbc cabxz

\- 反斜杠

反斜杠\用于转义包括所有元字符在内的各种字符。例如，

\$a如果字符串包含$后跟则匹配a。在此，$RegEx引擎不会以特殊方式对其进行解释。

如果不确定某个字符是否具有特殊含义，可以将其\放在前面。这样可以确保不对字符进行特殊处理。

特殊序列

特殊序列使常用模式更易于编写。以下是特殊序列的列表：

\A -如果指定字符在字符串的开头，则匹配。

表达式	字符串	匹配？
\Athe	the sun	匹配
\Athe	In the sun	没有匹配

\b -如果指定的字符在单词的开头或结尾，则匹配。

表达式	字符串	匹配？
\bfoo	football	匹配
	a football	匹配
	afootball	没有匹配
foo\b	the foo	匹配
	the afoo test	匹配
	the afootest	没有匹配

\B-与\b。如果指定的字符不在单词的开头或结尾，则匹配。

表达式	字符串	匹配？
\Bfoo	football	没有匹配
	a football	没有匹配
	afootball	匹配
foo\B	the foo	没有匹配
	the afoo test	没有匹配
	the afootest	匹配

\d-匹配任何十进制数字。相当于[0-9]

表达式	字符串	匹配？
\d	12abc3	3个匹配项（位于）12abc3
\d	Python	没有匹配

\D-匹配任何非十进制数字。相当于[^0-9]

表达式	字符串	匹配？
\D	1ab34"50	3个匹配项（位于）1ab34"50
\D	1345	没有匹配

\s-匹配字符串包含任何空格字符的地方。等同于[ \t\n\r\f\v]。

表达式	字符串	匹配？
\s	Python RegEx	1个匹配
\s	PythonRegEx	没有匹配

\S-匹配字符串包含任何非空白字符的地方。等同于[^ \t\n\r\f\v]。

表达式	字符串	匹配？
\S	a b	2个匹配项（位于） a b
\S		没有匹配

\w-匹配任何字母数字字符（数字和字母）。等同于[a-zA-Z0-9_]。顺便说一下，下划线_也被认为是字母数字字符。

表达式	字符串	匹配？
\w	12&": ;c	3个匹配项（位于）12&": ;c
\w	%"> !	没有匹配

\W-匹配任何非字母数字字符。相当于[^a-zA-Z0-9_]

表达式	字符串	匹配？
\W	1a2%c	1个匹配（在）1a2%c
\W	Python	没有匹配

\Z -如果指定的字符在字符串的末尾，则匹配。

表达式	字符串	匹配？
\ZPython	I like Python	1个匹配
	I like Python	没有匹配
	Python is fun.	没有匹配

提示：要构建和测试正则表达式，可以使用RegEx测试器工具，例如regex。该工具不仅可以帮助您创建正则表达式，还可以帮助您学习它。

现在，您了解了RegEx的基础知识，让我们讨论如何在Python代码中使用RegEx。

Python正则表达式

Python有一个名为re正则表达式的模块。要使用它，我们需要导入模块。

import re

该模块定义了一些可与RegEx一起使用的函数和常量。

re.findall()

re.findall()方法返回包含所有匹配项的字符串列表。

示例1：re.findall()

# 从字符串中提取数字的程序

import re

string = 'hello 12 hi 89. Howdy 34'
pattern = '\d+'

result = re.findall(pattern, string) 
print(result)

# 输出: ['12', '89', '34']

如果找不到该模式，则re.findall()返回一个空列表。

re.split()

split方法对匹配的字符串进行拆分，并返回发生拆分的字符串列表。

示例2：re.split()

import re

string = 'Twelve:12 Eighty nine:89.'
pattern = '\d+'

result = re.split(pattern, string) 
print(result)

# 输出: ['Twelve:', ' Eighty nine:', '.']

如果找不到该模式，则re.split()返回一个包含空字符串的列表。

您可以将maxsplit参数传递给re.split()方法。这是将要发生的最大拆分次数。

import re

string = 'Twelve:12 Eighty nine:89 Nine:9.'
pattern = '\d+'

# maxsplit = 1
# split only at the first occurrence
result = re.split(pattern, string, 1) 
print(result)

# 输出: ['Twelve:', ' Eighty nine:89 Nine:9.']

顺便说一下，maxsplit默认值为0；默认值为0。意味着拆分所有匹配的结果。

re.sub()

re.sub()的语法：

re.sub(pattern, replace, string)

该方法返回一个字符串，其中匹配的匹配项被替换为replace变量的内容。

示例3：re.sub()

# 删除所有空格的程序
import re

# 多行字符串
string = 'abc 12\
de 23 \n f45 6'

# 匹配所有空白字符
pattern = '\s+'

# 空字符串
replace = ''

new_string = re.sub(pattern, replace, string) 
print(new_string)

# 输出: abc12de23f456

如果找不到该模式，则re.sub()返回原始字符串。

您可以将count作为第四个参数传递给该re.sub()方法。如果省略，则结果为0。这将替换所有出现的匹配项。

import re

# 多行字符串
string = 'abc 12\
de 23 \n f45 6'

# 匹配所有空白字符
pattern = '\s+'
replace = ''

new_string = re.sub(r'\s+', replace, string, 1) 
print(new_string)

# 输出:
# abc12de 23
# f45 6

re.subn()

re.subn()与re.sub()类似，期望它返回一个包含2个项目的元组，其中包含新字符串和进行替换的次数。

示例4：re.subn()

# 删除所有空格的程序
import re

# 多行字符串
string = 'abc 12\
de 23 \n f45 6'

# 匹配所有空白字符
pattern = '\s+'

# 空字符串
replace = ''

new_string = re.subn(pattern, replace, string) 
print(new_string)

# 输出: ('abc12de23f456', 4)

re.search()

re.search()方法采用两个参数：模式和字符串。该方法寻找RegEx模式与字符串匹配的第一个位置。

如果搜索成功，则re.search()返回一个匹配对象。如果不是，则返回None。

match = re.search(pattern, str)

示例5：re.search()

import re

string = "Python is fun"

# 检查“Python”是否在开头
match = re.search('\APython', string)

if match:
  print("pattern found inside the string")
else:
  print("pattern not found")  

# 输出: pattern found inside the string

在这里，match包含一个match对象。

匹配对象

您可以使用dir()函数获取匹配对象的方法和属性。

匹配对象的一些常用方法和属性是：

match.group()

group()方法返回字符串中匹配的部分。

示例6：匹配对象

import re

string = '39801 356, 2102 1111'

# 三位数字，后跟空格，后两位数字
pattern = '(\d{3}) (\d{2})'

# match变量包含一个Match对象。
match = re.search(pattern, string) 

if match:
  print(match.group())
else:
  print("pattern not found")

# 输出: 801 35

在这里，match变量包含一个match对象。

我们的模式(\d{3}) (\d{2})有两个子组(\d{3})和(\d{2})。您可以获取这些带括号的子组的字符串的一部分。就是这样：

>>> match.group(1)
'801'

>>> match.group(2)
'35'
>>> match.group(1, 2)
('801', '35')

>>> match.groups()
('801', '35')

match.start()，match.end()和match.span()

start()函数返回匹配的子字符串的开头的索引。同样，end()返回匹配的子字符串的结束索引。

>>> match.start()
2
>>> match.end()
8

span()函数返回一个包含匹配部分的开始和结束索引的元组。

>>> match.span()
(2, 8)

match.re和match.string

匹配对象的re属性返回一个正则表达式对象。同样，string属性返回传递的字符串。

>>> match.re
re.compile('(\\d{3}) (\\d{2})')

>>> match.string
'39801 356, 2102 1111'

我们已经介绍了re模块中定义的所有常用方法。如果您想了解更多信息，请访问Python 3 re模块。

在RegEx之前使用r前缀

如果在正则表达式之前使用r或R前缀，则表示原始字符串。例如，'\n'是一个新行，而r'\n'表示两个字符：反斜杠\后跟n。

反斜杠\用于转义包括所有元字符在内的各种字符。但是，使用r前缀\会将其视为普通字符。

示例7：使用r前缀的原始字符串

import re

string = '\n and \r are escape sequences.'

result = re.findall(r'[\n\r]', string) 
print(result)

# 输出: ['\n', '\r']

Python 日期时间(datetime)Python @property

查看更多关于 Python 正则表达式(RegEx) 的详细内容...

Python 正则表达式(RegEx)

使用正则表达式指定模式

元字符

Python正则表达式

re.findall()

示例1：re.findall()

re.split()

示例2：re.split()

re.sub()

示例3：re.sub()

re.subn()

示例4：re.subn()

re.search()

示例5：re.search()

匹配对象

match.group()

示例6：匹配对象

match.start()，match.end()和match.span()

match.re和match.string

在RegEx之前使用r前缀

示例7：使用r前缀的原始字符串

Python 基础教程

Python 流程控制

Python 函数

Python 数据类型

Python 文件操作

Python 对象和类

Python 日期和时间

Python 高级知识

Python 参考手册