赞
踩
正则表达式 (regexps)的概念(一种描述与一组字符串匹配的模式的符号)在许多程序和语言中都很常见。 这些各种正则表达式实现的细节在某种程度上有所不同,但是学习构建正则表达式的原理对所有人都是通用的。
本文介绍了一些有用的工具和技术,这些工具和技术可用于学习在各种UNIX®应用程序中构建和完善正则表达式,包括:
生成正则表达式时,有助于查看模式在数据集的上下文中匹配的字符串。 考虑清单1的四行输入文本和与两个字符模式匹配的平凡regexp t[az]
。
- $ cat midsummer
- I know a bank where the wild thyme blows,
- Where oxlips and the nodding violet grows,
- Quite over-canopied with luscious woodbine,
- With sweet musk-roses and with eglantine.
- $ grep t[a-z] midsummer
- I know a bank where the wild thyme blows,
- Where oxlips and the nodding violet grows,
- Quite over-canopied with luscious woodbine,
- With sweet musk-roses and with eglantine.
- $
因为它在每一行上都找到至少一个与其两个字符模式匹配的字符,所以grep
命令输出输入文件中的每一行。 但是正则表达式匹配那些输入行上的哪些字符?
借助像这样的琐碎正则表达式,您可以很容易地自信地盯着它。 但是,当您构建复杂的正则表达式并拥有大型数据集或输入文件时,要知道正则表达式可能匹配的字符串会变得非常困难。 能够准确查看每行匹配的文本很有用。 在上下文中查看正则表达式的一种方法是在输出中标记它们。
您可以使用几个应用程序来做到这一点,包括grep
, sed
和Emacs。
当使用--color
选项时,某些较新版本的grep
(例如GNU grep
)会用颜色突出显示正则表达式, 如图1所示。
如果您的终端支持颜色,这是一种精确查看正则表达式匹配的字符串的有用方法。
您还可以在流编辑器sed
进行正则表达式突出显示。 sed
命令:
's/regexp/[&]/g'
输出输入的副本,括号中包含所有regexp实例。 清单2显示了带有示例文本的输出。
- $ sed 's/t[a-z]/[&]/g' midsummer
- I know a bank where [th]e wild [th]yme blows,
- Where oxlips and [th]e nodding violet grows,
- Qui[te] over-canopied wi[th] luscious woodbine,
- Wi[th] sweet musk-roses and wi[th] eglan[ti]ne.
- $
您也可以用其他方式标记正则表达式。 如果您输入的是Groff文档,则可以在正则表达式中添加粗体,然后将文档发送给groff
进行处理:
$ sed 's/t[a-z]/\\fB&\\fP/g' infile.roff | groff -
您还可以编写一个简短的sed
程序,以输出颜色匹配项。 如果您的外壳支持转义序列,则可以突出显示文件上下文中的所有正则表达式。 因为转义序列的输入很麻烦,所以您无疑要从脚本运行它,如清单3所示。
- #!/bin/sh
- # highlights regexp pattern in input file
- # usage: hre regexp file
- sed 's/'$1'/^[[34m&^[[37m/g' < $2
在清单中两次出现的^[
是一个文字转义字符,因此您必须使用支持输入文字字符的编辑器(例如Emacs(在其中键入Cq ESC
来输入))来输入此清单。 34
和37
是分别指定蓝色和白色的Bash转义代码。
要使脚本可执行,请键入:
$ chmod 744 hre
然后运行它, 如图2所示。
虽然可以使用此方法指定突出显示颜色和纯色,但也有一些注意事项。 例如, 清单3中所示的脚本仅在终端的纯文本为白色时才有效,因为它将文本还原为该颜色。 如果您的终端使用不同的颜色显示纯文本,请在脚本中更改转义码。 (例如, 30
是黑色。)
在新版本的GNU Emacs编辑器中, isearch-forward-regexp
和isearch-backward-regexp
函数会突出显示缓冲区中的所有匹配项。 如果您在系统上安装了最新版本的Emacs,请立即尝试:
$ emacs midsummer
Mx isearch-forward-regexp
。 Mx
是Meta-x组合的Emacs表示法,您可以通过按住Alt键, X并释放两个键,或者通过按Esc键将其释放,然后按X来在大多数系统上键入键。
t[az]
由于搜索是渐进式的,因此 Emacs在键入单个字符时便开始突出显示匹配项-在这种情况下,当您按T键时,缓冲区中的所有T字符都将突出显示。 请注意,一旦您开始输入方括号中的字符列表,突出显示就会消失,并且Emacs会在迷你缓冲区中报告它没有足够的输入来显示匹配项。
您的Emacs会话应如图3所示 。
Cx Cc
退出Emacs。 您可以通过按住Ctrl键,按X ,然后按住Ctrl键并按C来键入此组合。
isearch-forward-regexp
和isearch-backward-regexp
函数通常绑定到MSs
和MSr
击键。 (要创建它们,请按住Alt键, Ctrl键以及S或R键。)
还有另一种解决模式上下文问题的方法,那就是只输出匹配本身,而不输出匹配发生的整个行。 有多种方法可以使用grep
, sed
和perl
。
--only-matching
选项(也为-o
)更改grep
的行为,以便它不输出包含与regexp匹配的所有行,而仅输出匹配的行 。 如同--color
选项如上所述 ,该功能显示在一些较新版本grep
实现,包括GNU grep
,这是开源和可用于许多操作系统。
此选项用于收集与正则表达式匹配的数据-非常适用于收集IP地址,URL,名称,电子邮件地址,单词等,但它也是学习正则表达式的好方法。 例如, 清单4显示了如何使用它来收集清单1的示例文本中的所有单词。 它将每个单词输出到一行。
- $ egrep -o '[A-Za-z]+' midsummer
- I
- know
- a
- bank
- where
- the
- wild
- thyme
- blows
- Where
- oxlips
- and
- the
- nodding
- violet
- grows
- Quite
- over
- canopied
- with
- luscious
- woodbine
- With
- sweet
- musk
- roses
- and
- with
- eglantine
- $

实际上,当您为某项作业构建特别复杂的正则表达式时,使用此选项是一种简单的测试方法,以确保已正确构建它。 您经常可以立即看到您的正则表达式是否需要修复。
假设您要输出包含字符串th
的测试文件中的所有单词,并且已经构建了清单5中所示的regexp来做到这一点。
- $ egrep -o 'th[a-z]*' midsummer
- the
- thyme
- the
- th
- th
- th
- $
哦,那不行。 您可以立即看到输出中的某些匹配项根本不是单词。 最好再试一次: 清单6考虑了th
之前可能出现的单词中的所有字母。
- $ egrep -o '[a-z]*th[a-z]*' midsummer
- the
- thyme
- the
- with
- ith
- with
- $
好多了,但还差一点。 您会看到一个“ ith”表示该正则表达式与大写字母不匹配。 通过拉出-i
选项来纠正此问题,如清单7所示。
- $ egrep -o -i '[a-z]*th[a-z]*' midsummer
- the
- thyme
- the
- with
- With
- with
而已!
使用-o
和一些测试数据对构建正则表达式很有帮助,因为您可能已经假设正则表达式在包含“ th”行的情况下是匹配的。 但是您不知道该表达实际上有点差。
您可以使用以下命令在sed
执行类似的操作:
s/.*\(regexp\).*/\1/p
匹配sed
表达式。 该命令仅从输入中输出匹配的模式,而不输出包含匹配项的输入行。 但是,它仅输出给定行上的最后一个实例,如清单8所示。
- $ sed -n 's/.*\(th[a-z]\).*/\1/p' midsummer
- thy
- the
- $ grep -o th[a-z] midsummer
- the
- thy
- the
- $
正则表达式在Perl语言中也很常用,但是Perl正则表达式与您使用grep
构建的正则表达式不同。 pcretest
工具可让您测试Perl正则pcretest
。 您可以使用此工具熟悉与Perl兼容的正则表达式(PCRE)库,并调试或测试使用它构建的正则表达式。
regexp像往常一样用斜杠(/)括起来,并且可以跟在后面的修饰符用来改变搜索的行为。 表1中提供了常见的正则表达式修饰符。
修饰符 | 描述 |
---|---|
8 | 此修饰符支持Unicode(UTF-8)字符集。 |
g | 此修饰符搜索全局匹配项(一行中有多个)。 |
i | 该修饰符忽略大小写的差异。 |
m | 此修饰符可搜索多行。 |
x | 该修饰符使用扩展的Perl正则表达式。 |
尝试pcretest
交互方式运行pcretest
,如清单9所示。
- $ pcretest
- PCRE version 6.7 04-Jul-2006
-
- re> /[a-z]*th[a-z]*/ig
- data> With sweet musk-roses and with eglantine.
- 0: With
- 0: with
- data>
- $
您也可以使用输入文件运行pcretest
。 输入文件包含要在一行上进行测试的regexp,然后是要测试的任意数量的数据行。 您可以使用空行将多个正则表达式及其各自的数据分开; pcretest
继续读取正则pcretest
并搜索以下几行数据,直到到达文件末尾(EOF)。
如果提供第二个文件的名称,则pcretest
会将输出写入该文件。 否则,它将写入标准输出,如清单10所示。
- $ cat midsummer.pre
- /w[hi]|th/gi
- I know a bank where the wild thyme blows,
- Where oxlips and the nodding violet grows,
- Quite over-canopied with luscious woodbine,
- With sweet musk-roses and with eglantine.
- $ pcretest midsummer.pre
- PCRE version 6.7 04-Jul-2006
-
- /w[hi]|th/gi
- I know a bank where the wild thyme blows,
- 0: wh
- 0: th
- 0: wi
- 0: th
- Where oxlips and the nodding violet grows,
- 0: Wh
- 0: th
- Quite over-canopied with luscious woodbine,
- 0: wi
- 0: th
- With sweet musk-roses and with eglantine.
- 0: Wi
- 0: th
- 0: wi
- 0: th
- $

txt2regex脚本是为Bash shell构建的交互式,跨平台正则表达式“向导”。 当您运行它时,它会向您询问有关您要匹配的模式的一系列问题,然后它会为任意数量的两个十几种不同的应用程序构建有效的正则表达式:
awk
ed
egrep
emacs
expect
find
gawk
grep
javascript
lex
lisp
mawk
mysql
ooo
perl
php
postgres
procmail
python
sed
tcl
vbscript
vi
vim
除了帮助您以交互方式构建正则表达式外,txt2regex还提供了针对各种语言和应用程序的正则表达式语法的简要摘要,与常用模式匹配的“就绪正则表达式”列表以及一个方便的正则表达式元字符图表。
要为txt2regex 支持的一个或多个应用程序构建一个regexp,请在逗号分隔的列表中提供这些应用程序的名称,作为--prog
选项的参数。
首先尝试构建在上下文部分的“ 突出显示”匹配中给出的平凡正则表达式,该正则表达式匹配T字符,后跟小写字母:
grep
, sed
和Emacs指定正则表达式: $ txt2regex --prog grep,sed,emacs
2
以选择“在行的任何部分”。 2
以选择“特定字符”,然后在询问匹配哪个字符时键入t
。 现在,您必须回答要匹配多少次。
1
以指定一次。 6
以选择“特殊组合”来匹配任何小写字母,然后键入b
以匹配小写字母。 输入.
退出组合子菜单。 1
将小写字母完全匹配一次。 在执行该过程时,txt2regex会为三个选定的应用程序中的每个构建regexp,并将其显示在屏幕顶部附近。 现在,您已经完全选择了想要的内容,可以在图4中看到所有三个应用程序所需的正则表达式。
键入..
退出。 正则表达式列表将保留在您的终端上。
是的,所有三个正则表达式碰巧都写为相同的t[az]
,但这仅是因为这是一个简单的正则表达式,并且所选的三个应用程序都具有类似的正则表达式语法。 对于所有选择的应用程序,构建的正则表达式不一定总是一样。
举例来说,假设您要构造在仅显示匹配项而不是行部分中使用的两个正则表达式。 第一个是一个大写或小写字母的单词:
$ txt2regex
2
以匹配该行的任何部分。 6
以给出特殊的组合,然后键入a
和b
以选择所有大写和小写字母。 .
返回主菜单,然后键入4
以指定应匹配一次或多次。 如果没有选项,则txt2regex默认为perl
, php
, postgres
, python
, sed
和vim
应用程序构建正则表达式。 完成上述操作后,您会发现前四个应用程序使用与清单4中的 grep
相同的正则表达式,但是sed
和vim
正则表达式略有不同。 这是因为这些应用程序使用的元字符表示法略有不同, 如下所述 。
再次输入..
退出程序。 各种应用程序的正则表达式将保留在您的终端上。 您可以按显示使用它们,也可以对其进行编辑以进一步完善它们。 例如,匹配包含撇号(')字符的单词怎么办? 不,是谁,是所有者的,“原因,乔的等等”? 您刚刚构建的regexp将无法正确匹配它们,如您所见, 仅显示匹配项 (请参见清单11 )。
- $ echo "Don't miss a word, just 'cause it's wrong." | egrep [A-Za-z]+
- Don
- t
- miss
- a
- word
- just
- cause
- it
- s
- wrong
- $
您需要将连字符添加到该括号列表中,并再次进行演示,如清单12所示。 请注意,您必须立即引用正则表达式。
- $ echo "Don't miss a word, just 'cause it's wrong." | egrep "[A-Za-z']+"
- Don't
- miss
- a
- word
- just
- 'cause
- it's
- wrong
- $
在“ 仅显示匹配项而不是行”部分中使用的下一个正则表达式是针对单词中包含“ th”的单个单词。 您已经为egrep
, sed
和perl
使用了正则表达式; 现在尝试为普通grep
构建它:
$ txt2regex
/
选择程序,然后键入hkopqstx.
这样就只会为grep
建立一个正则表达式。 26ab.3
以选择行上任何位置的零个或多个大写或小写字母。 2t12h1
,在2t12h1
跟字符T和H,每个字符恰好出现一次。 6ab.3
以跟随零个或多个大写或小写字母。 ..
退出程序。 您可以测试刚刚构建的regexp,如清单13所示。
- $ grep -o [A-Za-z]*th[A-Za-z]* midsummer
- the
- thyme
- the
- with
- With
- with
- $
--showinfo
选项仅输出有关为特定程序或语言构建正则--showinfo
的信息的简短摘要。 输出中包括应用程序的名称和版本,正则表达式元字符,默认转义元字符,默认情况下需要转义的元字符,是否可以在方括号列表中使用制表符以及其是否支持可移植操作系统接口(POSIX)括号。表达式。
如果您是从事多个应用程序的开发人员,那么这是快速获取特定应用程序的regexp规则的好方法,如清单14所示。
- $ txt2regex --showinfo javascript
-
- program javascript: netscape-4.77
- metas . [] [^] * + ? {} | ()
- esc meta \
- need esc \.*[{(|+?^$
- \t in [] YES
- [:POSIX:] NO
-
- $ txt2regex --showinfo php
-
- program php: 4.0.6
- metas . [] [^] * + ? {} | ()
- esc meta \
- need esc \.*[{(|+?^$
- \t in [] YES
- [:POSIX:] YES
-
- $

作者将--make
选项描述为“头痛的补救方法”。 它为作为参数给出的几种常见模式之一输出一个正则表达式,如表2所示 。
论据 | 描述 |
---|---|
date | 此参数匹配mm/dd/yyyy 格式的日期,范围从00/00/0000到99/99/9999。 |
date2 | 此参数匹配mm/dd/yyyy 格式的日期,从00/00/1000到19/39/2999。 |
date3 | 此参数匹配mm/dd/yyyy 格式的日期,从00/00/1000到12/31/2999。 |
hour | 该参数匹配hh:mm 格式的时间,从00:00到99:99。 |
hour2 | 此参数以hh:mm 格式匹配时间,从00:00到29:59。 |
hour3 | 此参数以hh:mm 格式匹配时间,从00:00到23:59。 |
number | 此参数匹配任何正整数或负整数。 |
number2 | 此参数将任何具有可选浮点值的正整数或负整数匹配。 |
number3 | 此参数将任何具有可选逗号和可选浮点值的正整数或负整数匹配。 |
例如,您可以使用它来获取在军事时间内任何有效小时的正则表达式,如清单15所示。
- $ txt2regex --make hour3
-
- RegEx perl : ([01][0-9]|2[0123]):[012345][0-9]
- RegEx php : ([01][0-9]|2[0123]):[012345][0-9]
- RegEx postgres: ([01][0-9]|2[0123]):[012345][0-9]
- RegEx python : ([01][0-9]|2[0123]):[012345][0-9]
- RegEx sed : \([01][0-9]\|2[0123]\):[012345][0-9]
- RegEx vim : \([01][0-9]\|2[0123]\):[012345][0-9]
-
- $
另一个有用的txt2regex选项是--showmeta
,它输出一个表,该表包含用于为支持的应用程序构建正则--showmeta
的所有元字符。 清单16中显示了此选项。
- $ txt2regex --showmeta
-
- awk + ? | ()
- ed \+ \? \{\} \| \(\)
- egrep + ? {} | ()
- emacs + ? \| \(\)
- expect + ? | ()
- find + ? \| \(\)
- gawk + ? {} | ()
- grep \+ \? \{\} \| \(\)
- javascript + ? {} | ()
- lex + ? {} | ()
- lisp + ? \\| \\(\\)
- mawk + ? | ()
- mysql + ? {} | ()
- ooo + ? {} | ()
- perl + ? {} | ()
- php + ? {} | ()
- postgres + ? {} | ()
- procmail + ? | ()
- python + ? {} | ()
- sed \+ \? \{\} \| \(\)
- tcl + ? | ()
- vbscript + ? {} | ()
- vi \{1\} \{01\} \{\} \(\)
- vim \+ \= \{} \| \(\)
-
- NOTE: . [] [^] and * are the same on all programs.
-
- $

阅读手册是值得的。 您的系统可能比您可能意识到的更多有关构建和使用正则表达式的文档,包括手册页。
例如, grep
, sed
和其他类似工具的手册页描述了它们的regexp语法并提供了示例。 如果您的系统上安装了GNU版本,则他们的Info文档中可能还包含比通常的手册页更多的信息-有时会在其中安装整个用户手册。 例如,如果您已安装GNU sed
并具有info
二进制文件,则可以阅读手册:
$ info sed
Perl文档(通常与主要Perl源代码或二进制软件包分开打包和分发)包含有关Perl正则表达式的完整手册页:
$ man perlre
这个主题还有更多。 pcrepattern
手册页( 如上所述 ,随pcretest
应用程序一起分发)还描述了Perl正则表达式。
最后,可在许多UNIX系统上使用的regex
手册页提供了有关构建POSIX regexp的信息。 此手册页上的信息来自Henry Spencer的regex
库(请参阅参考资料 )。
UNIX系统上有许多用于正则表达式构建的工具和方法。 您刚刚学到了其中一些最好的方法。
这些工具提供了强大的方法来设计,测试和改进正则表达式。 在UNIX系统上使用这些工具和技术可能是学习构建复杂的正则表达式的最佳方法。 而且也很有趣!
翻译自: https://www.ibm.com/developerworks/aix/library/au-regexp/index.html
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。