赞
踩
目录
正则表达式 (Regular Expression) 又称 RegEx, 是用来匹配字符的一种工具. 在一大串字符中寻找你需要的内容. 它常被用在很多方面, 比如网页爬虫, 文稿整理, 数据筛选等等. 最简单的一个例子, 比如我需要爬取网页中每一页的标题. 而网页中的标题常常是这种形式.
而且每个网页的标题各不相同, 我就能使用正则表达式, 用一种简单的匹配方法, 一次性选取出成千上万网页的标题信息. 正则表达式绝对不是一天就能学会和记住的, 因为表达式里面的内容非常多, 强烈建议, 现在这个阶段, 你只需要了解正则里都有些什么, 不用记住, 等到你真正需要用到它的时候, 再反过头来, 好好琢磨琢磨, 那个时候才是你需要训练自己记住这些表达式的时候.
正则表达式是由普通字符(例如字符 a 到 z)以及特殊字符(称为"元字符")组成的文字模式。模式描述在搜索文本时要匹配的一个或多个字符串。正则表达式作为一个模板,将某个字符模式与所搜索的字符串进行匹配。
普通字符包括没有显式指定为元字符的所有可打印和不可打印字符。这包括所有大写和小写字母、所有数字、所有标点符号和一些其他符号。
\d | 匹配一个数字 |
\D | 匹配一个非数字 |
\w | 匹配一个字母 |
\W | 匹配一个非字母 |
[] | 可以使用 [] 将可能的字符囊括进来,只能匹配一个字符。 |
. | 匹配除换行符 \n 之外的任何单字符。 |
\ | 将下一个字符标记为或特殊字符、或原义字符、或向后引用、或八进制转义符。例如, 'n' 匹配字符 'n'。'\n' 匹配换行符。序列 '\\' 匹配 "\",而 '\(' 则匹配 "("。 |
\cx | 匹配由x指明的控制字符。例如, \cM 匹配一个 Control-M 或回车符。x 的值必须为 A-Z 或 a-z 之一。否则,将 c 视为一个原义的 'c' 字符。 |
\f | 匹配一个换页符。等价于 \x0c 和 \cL。 |
\n | 匹配一个换行符。等价于 \x0a 和 \cJ。 |
\r | 匹配一个回车符。等价于 \x0d 和 \cM。 |
\s | 匹配任何空白字符,包括空格、制表符、换页符等等。等价于 [ \f\n\r\t\v]。注意 Unicode 正则表达式会匹配全角空格符。 |
\S | 匹配任何非空白字符。等价于 [^ \f\n\r\t\v]。 |
\t | 匹配一个制表符。等价于 \x09 和 \cI。 |
\v | 匹配一个垂直制表符。等价于 \x0b 和 \cK。 |
(2)定位符
^ | 匹配输入字符串开始的位置。如果设置了 RegExp 对象的 Multiline 属性,^ 还会与 \n 或 \r 之后的位置匹配。当在一组方括号里使用 ^ 时,它表示"非"或"排除"的意思,常常用来剔除某个字符。 |
$ | 匹配输入字符串结尾的位置。如果设置了 RegExp 对象的 Multiline 属性,$ 还会与 \n 或 \r 之前的位置匹配。 |
\b | 匹配一个单词边界。 |
\B | 非单词边界匹配。 |
- # \b匹配单词的边界
- # \b单词,在单词前边不能出现数字、字母、汉字,但是可以出现除此之外的其他符号
-
- >>> print(re.search(r"\brun", "cat is running"))
- <re.Match object; span=(7, 10), match='run'>
-
- >>> print(re.search(r"\brun", "cat is !running"))
- <re.Match object; span=(8, 11), match='run'>
-
- >>> print(re.search(r"\brun", "cat is *&running"))
- <re.Match object; span=(9, 12), match='run'>
-
- >>> print(re.search(r"run\b", "he run!"))
- <re.Match object; span=(3, 6), match='run'>
-
- >>> print(re.search(r"run\b", "he run and fail"))
- <re.Match object; span=(3, 6), match='run'>
- # \B单词,单词前边为数字或字母
- # 单词\B,单词后边为数字或字母
-
- >>> print(re.search(r"\BMath", "MyMath"))
- <re.Match object; span=(2, 6), match='Math'>
-
- >>> print(re.search(r"\BMath", "1Math"))
- <re.Match object; span=(1, 5), match='Math'>
- # ^匹配字符串开头
-
- >>> print(re.search(r"^welcome", "welcome to beijing"))
- <re.Match object; span=(0, 7), match='welcome'>
-
- >>> print(re.search(r"^@", "@胡歌"))
- <re.Match object; span=(0, 1), match='@'>
- # $匹配字符串的结尾
-
- >>> print(re.search(r"bye$", "赵丽颖,bye"))
- <re.Match object; span=(4, 7), match='bye'>
-
-
- >>> print(re.search(r".beijing", "!beijing"))
- <re.Match object; span=(0, 8), match='!beijing'>
* | 匹配前面的子表达式零次或多次。例如,zo* 能匹配 "z" 以及 "zoo"。* 等价于{0,}。 |
+ | 匹配前面的子表达式一次或多次。例如,'zo+' 能匹配 "zo" 以及 "zoo",但不能匹配 "z"。+ 等价于 {1,}。 |
? | 匹配前面的子表达式零次或一次。例如,"do(es)?" 可以匹配 "do" 、 "does" 中的 "does" 、 "doxy" 中的 "do" 。? 等价于 {0,1}。 |
{n} | n 是一个非负整数。匹配确定的 n 次。例如,'o{2}' 不能匹配 "Bob" 中的 'o',但是能匹配 "food" 中的两个 o。 |
{n,} | n 是一个非负整数。至少匹配n 次。例如,'o{2,}' 不能匹配 "Bob" 中的 'o',但能匹配 "foooood" 中的所有 o。'o{1,}' 等价于 'o+'。'o{0,}' 则等价于 'o*'。 |
{n,m} | m 和 n 均为非负整数,其中n <= m。最少匹配 n 次且最多匹配 m 次。例如,"o{1,3}" 将匹配 "fooooood" 中的前三个 o。'o{0,1}' 等价于 'o?'。请注意在逗号和两个数之间不能有空格。 |
*? +? ?? {m,n}? | 使得* + ?{m,n}变成非贪婪模式 |
- # +前面表达式重复一次或者多次
- # ab+前面表达式变为ab
-
- >>> print(re.search(r"(ab)+", "ab"))
- <re.Match object; span=(0, 2), match='ab'>
-
- >>> print(re.search(r"(ab)+", "beijing and ab"))
- <re.Match object; span=(12, 14), match='ab'>
-
- >>> print(re.search(r"ab+", "beijing"))
- None
-
- >>> print(re.search(r"a-b+", "beijing")) #表达式为a-b
- None
-
- >>> print(re.search(r"a-b+", "NNNa-bMMM"))
- <re.Match object; span=(3, 6), match='a-b'>
| | 匹配前面的子表达式零次或多次。例如,zo* 能匹配 "z" 以及 "zoo"。* 等价于{0,}。 |
(....) | 匹配前面的子表达式一次或多次。例如,'zo+' 能匹配 "zo" 以及 "zoo",但不能匹配 "z"。+ 等价于 {1,}。 |
(?P<name>....) | 匹配前面的子表达式零次或一次。例如,"do(es)?" 可以匹配 "do" 、 "does" 中的 "does" 、 "doxy" 中的 "do" 。? 等价于 {0,1}。 |
- # 正则表达式用()来进行分组
- # 通过group(i)可以得到不同分组匹配到的字符串
-
- >>> print(re.search(r"(\d+)----(.+)", "123456----北京天安门"))
- <re.Match object; span=(0, 15), match='123456----北京天安门'>
-
- >>> a = re.search(r"(\d+)----(.+)", "123456----北京天安门")
- >>> a.group()
- '123456----北京天安门'
-
- >>> a.group(1)
- '123456'
-
- >>> a.group(2)
- '北京天安门'
前面我们说的都是只找到了最开始匹配上的一项而已, 如果需要找到全部的匹配项, 我们可以使用 findall 功能. 然后返回一个列表. 注意下面还有一个新的知识点, | 是 or 的意思, 要不是前者要不是后者.
- >>> print(re.findall(r"r[ua]n", "run and ran r2n"))
- ['run', 'ran']
-
- >>> print(re.findall(r"(run|ran)", "ruan run runnnran"))
- ['run', 'run', 'ran']
再来我们 Python 中有个字符串的分割功能, 比如想获取一句话中所有的单词. 比如 "a is b".split(" "), 这样它就会产生一个列表来保存所有单词. 但是在正则中, 这种普通的分割也可以做的淋漓精致.
- # split分割函数
- >>> print(re.split(r"[,:\.]","a,b.c:d"))
- ['a', 'b', 'c', 'd']
我们还能通过正则表达式匹配上一些形式的字符串然后再替代掉这些字符串. 使用这种匹配 re.sub(), 将会比 python 自带的 string.replace() 要灵活多变.
- # replace替换函数
- >>> print(re.sub(r"r[au]nners", "walker", "runners are walking"))
- walker are walking
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。