赞
踩
正则表达式(Regular Expression)是一种文本模式,包括普通字符(例如:a到z之间的字母)和特殊字符(称为“元字符”)。正则表达式使用单个字符串来描述、匹配一系列匹配某个句法规则的字符串。
re.match函数尝试从字符串的起始位置匹配一个模式,如果不是起始位置匹配成功的话,match()就返回none。
re.search扫描整个字符串并返回第一个成功的匹配。
re.match只匹配字符串的开始,如果字符串开始不符合正则表达式,则匹配失败,函数返回None;而re.search匹配整个字符串,直到找到一个匹配。
Python的re模块提供了re.sub用于替换字符串中的匹配项。
compile函数用于编译正则表达式,生成一个正则表达式(Pattern)对象,供match()和research()这个函数使用。
在字符串中找到正则表达式所匹配的所有子串,并返回一个列表,如果有多个匹配模式,则返回元组列表,如果没有找到匹配的,则返回空列表。
注意:match和search是匹配一次findall是匹配所有。
和findall类似,在字符串中找到正则表达式所匹配的所有子串,并把它们作为一个迭代器返回。
split方法按照能够匹配的子串将字符串分割后返回列表。
模式字符串使用特殊字符的语法来表示一个正则表达式:
正则表达式(regular expression)描述了一种字符串匹配的模式(pattern),可以用来检查一个串是否含有某种子串、将匹配的子串替换或者从某个串中取出符合某个条件的子串等。
构造正则表达式用多种元字符与运算符将小的表达式结合在一起来创建更大的表达式。正则表达式的组件可以是单个字符、字符集合、字符范围、字符间的选择或者所有这些组件的任意组合。
正则表达式是由普通字符(例如a到z)以及特殊字符(称为“元字符”)组成的文字模式。模式描述在搜索文本时要匹配的一个或多个字符串。正则表达式作为一个模板,将某个字符模式与所搜索的字符串进行匹配。
普通字符包括没有显示指定为元字符的所有可打印和不可打印字符。包括大写和小写的字母、所有数字、所有标点符合和一些其它符号。
限定符用来指定正则表达式的一个给定组件必须要出现多次才能满足匹配。有*或+或?或{n}或{n,}或{n,m}共6种。
定位符能够将正则表达式固定到行首或行尾。这些正则表达式出现在一个单词内、在一个单词的开头或者一个单词的结尾。
用圆括号()将所有选择项括起来,相邻的选择项之间用|分隔。()表示捕获分组,()会把每个分组里的匹配的值保存起来,多个匹配值可以通过数字n来查看(n使一个数字,表示第n个捕获组的内容)。但是圆括号会有一个副作用,使相关的匹配会被缓存,将?:放在第一个选项前面来消除这种副作用。
?=、?<=、 ?!、 ?<!的区别
exp1(?=exp2):查找exp2前面的exp1
(?<exp2)exp1:查找exp2后面的exp1
exp1(?!exp2):查找后面不是exp2的exp1
(?<!exp2)exp1:查找前面不是exp2的exp1
标记也称为修饰符,正则表达式的标记用于指定额外的匹配策略。标记不写在正则表达式里,标记位于表达式之外。
^表示字符串的开头,但它还有另外一个含义。当在一组方括号里使用 ^ 时,它表示"非"或"排除"的意思,常常用来剔除某个字符。
参考资料
正则表达式 - 教程
Python 正则表达式
正则表达式的先行断言(lookahead)和后行断言(lookbehind)
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。